写点什么

Dreamer 4:通过想象训练,学习从线下数据中实现目标

  • 2025-10-10
    北京
  • 本文字数:955 字

    阅读完需:约 3 分钟

大小:461.05K时长:02:37
Dreamer 4:通过想象训练,学习从线下数据中实现目标

来自谷歌 DeepMind 的研究人员最近介绍了一种新的方法,通过仅在视频片段上训练智能 Agent(而不是通过与环境的直接互动)来解决复杂、长期的任务。他们的新 Agent 名为 Dreamer 4,在经过视频训练后,它展示了在没有实际玩过 Minecraft 游戏的情况下获得在游戏中挖掘钻石的能力。

 

研究人员将他们的方法称为“想象训练”,以强调 Agent 仅从离线数据中学习,而不与物理世界互动。换句话说,训练完全在 Agent 的“想象”中进行,然后应用于现实世界场景。这项功能对于像机器人学科这样的领域尤为重要,研究的作者之一 Danijar Hafner 在 Twitter 上指出,直接在线互动通常是可行的。

 

在一篇配套论文中,研究人员详细描述了他们的方法。他们的模型架构包括两大部分:一个将每个视频帧压缩成连续表示的分词器,以及一个动态模型,它根据当前的表示和选择的行动预测下一个世界表示。

 

为了使动态模型更高效,研究人员采用了强制捷径,训练模型在预测未来帧时采取更大的步骤,而不失准确性。结果,Dreamer 4 能够实时生成新的世界表示。此外,他们还结合了跨空间和时间的因果注意力,以及专门的内存技术,使模型能够在单个 GPU 上保持至少每秒 20 帧的最低速度。

 

如上所述,Dreamer 4 是第一个仅从离线数据训练的 Agent,已被证明能够在游戏中挖掘钻石。这可能看起来是一个简单的任务,但实际上它需要基于原始像素数据选择超过 20,000 个鼠标和键盘操作序列。

 

Dreamer 4 在数据使用量减少 100 倍的情况下,显著优于 OpenAI 的 VPT 离线 Agent。它还优于基于微调通用视觉-语言模型的现代行为克隆方法。

 

研究人员还强调,Dreamer 4 优于 Gemma 3,证明他们的方法不仅适用于构建行为克隆 Agent,也可能适用于一般决策制定。

 

在 X 上被问及此事时,Hafner 将 Minecraft 描述为体现 Agent 研究成果的绝佳测试平台,指出虽然挖掘钻石是一个复杂的任务,但它远不是 Minecraft 为测试 Agent 提供的唯一的挑战:

 

我们可以在 Minecraft 上取得更多的通用 AI 进展!Agent 还远未达到人类的游戏水平,而且还有数百个比获得钻石更难的任务。

 

最后,Dreamer 4 还在一个真实世界的机器人数据集上进行了测试,展示了其执行反事实交互的能力。与经常在物体交互的物理性方面挣扎的最新视频模型相比,它显示出了有希望的结果。

 

原文链接:Dreamer 4: Learning to Achieve Goals from Offline Data Through Imagination Training

2025-10-10 14:035152

评论

发布
暂无评论

8款AI视频生成产品实测,谁将成为中国Sora?

自象限

选择KV数据库最重要的是什么?

YG科技

2024多云管理平台CMP排名看这里!

行云管家

云计算 云服务 多云管理 云管

GaussDB(for Redis)特性揭秘:多租户管理

YG科技

GaussDB(for Redis)助力金智教育业务数字化,增效降本双赢

YG科技

电源噪声的起因及危害

芯动大师

噪声 电源

实现以图搜货功能,淘宝API开发实战分享

tbapi

图片搜索接口 以图搜货接口 拍立淘接口

Go连接池复用踩坑

三七互娱后端技术团队

golang

《计算机网络: 自顶向下方法(原书第7版)》PDF

程序员李木子

GaussDB(for Redis)游戏实践:玩家下线行为上报

YG科技

GaussDB(for Redis)特性揭秘:大key治理

YG科技

守护更多女性健康,华为云GeminiDB助力美柚完成数据库高效稳定迁移

YG科技

新体验、高效能,星河零代码产线加速带动产业新质生产力

飞桨PaddlePaddle

百度 BAIDU 百度飞桨 产品更新 PaddleX

C++ 字符串完全指南:学习基础知识到掌握高级应用技巧

小万哥

程序人生 编程语言 软件工程 C/C++ 后端开发

在线教学用什么软件?这款可视化白板工具值得推荐!

彭宏豪95

培训 在线白板 办公软件 在线协作 在线教学

虚拟仿真云:从传统仿真到云仿真的转变与应用

3DCAT实时渲染

虚拟仿真 仿真云

教学必备的9个教案和课件网站!建议收藏!

彭宏豪95

效率工具 培训 在线白板 办公软件 在线教学

Dreamer 4:通过想象训练,学习从线下数据中实现目标_AI&大模型_Sergio De Simone_InfoQ精选文章