
来自谷歌 DeepMind 的研究人员最近介绍了一种新的方法,通过仅在视频片段上训练智能 Agent(而不是通过与环境的直接互动)来解决复杂、长期的任务。他们的新 Agent 名为 Dreamer 4,在经过视频训练后,它展示了在没有实际玩过 Minecraft 游戏的情况下获得在游戏中挖掘钻石的能力。
研究人员将他们的方法称为“想象训练”,以强调 Agent 仅从离线数据中学习,而不与物理世界互动。换句话说,训练完全在 Agent 的“想象”中进行,然后应用于现实世界场景。这项功能对于像机器人学科这样的领域尤为重要,研究的作者之一 Danijar Hafner 在 Twitter 上指出,直接在线互动通常是可行的。
在一篇配套论文中,研究人员详细描述了他们的方法。他们的模型架构包括两大部分:一个将每个视频帧压缩成连续表示的分词器,以及一个动态模型,它根据当前的表示和选择的行动预测下一个世界表示。
为了使动态模型更高效,研究人员采用了强制捷径,训练模型在预测未来帧时采取更大的步骤,而不失准确性。结果,Dreamer 4 能够实时生成新的世界表示。此外,他们还结合了跨空间和时间的因果注意力,以及专门的内存技术,使模型能够在单个 GPU 上保持至少每秒 20 帧的最低速度。
如上所述,Dreamer 4 是第一个仅从离线数据训练的 Agent,已被证明能够在游戏中挖掘钻石。这可能看起来是一个简单的任务,但实际上它需要基于原始像素数据选择超过 20,000 个鼠标和键盘操作序列。
Dreamer 4 在数据使用量减少 100 倍的情况下,显著优于 OpenAI 的 VPT 离线 Agent。它还优于基于微调通用视觉-语言模型的现代行为克隆方法。
研究人员还强调,Dreamer 4 优于 Gemma 3,证明他们的方法不仅适用于构建行为克隆 Agent,也可能适用于一般决策制定。
在 X 上被问及此事时,Hafner 将 Minecraft 描述为体现 Agent 研究成果的绝佳测试平台,指出虽然挖掘钻石是一个复杂的任务,但它远不是 Minecraft 为测试 Agent 提供的唯一的挑战:
我们可以在 Minecraft 上取得更多的通用 AI 进展!Agent 还远未达到人类的游戏水平,而且还有数百个比获得钻石更难的任务。
最后,Dreamer 4 还在一个真实世界的机器人数据集上进行了测试,展示了其执行反事实交互的能力。与经常在物体交互的物理性方面挣扎的最新视频模型相比,它显示出了有希望的结果。
原文链接:Dreamer 4: Learning to Achieve Goals from Offline Data Through Imagination Training
评论