写点什么

Dreamer 4:通过想象训练,学习从线下数据中实现目标

  • 2025-10-10
    北京
  • 本文字数:955 字

    阅读完需:约 3 分钟

大小:461.05K时长:02:37
Dreamer 4:通过想象训练,学习从线下数据中实现目标

来自谷歌 DeepMind 的研究人员最近介绍了一种新的方法,通过仅在视频片段上训练智能 Agent(而不是通过与环境的直接互动)来解决复杂、长期的任务。他们的新 Agent 名为 Dreamer 4,在经过视频训练后,它展示了在没有实际玩过 Minecraft 游戏的情况下获得在游戏中挖掘钻石的能力。

 

研究人员将他们的方法称为“想象训练”,以强调 Agent 仅从离线数据中学习,而不与物理世界互动。换句话说,训练完全在 Agent 的“想象”中进行,然后应用于现实世界场景。这项功能对于像机器人学科这样的领域尤为重要,研究的作者之一 Danijar Hafner 在 Twitter 上指出,直接在线互动通常是可行的。

 

在一篇配套论文中,研究人员详细描述了他们的方法。他们的模型架构包括两大部分:一个将每个视频帧压缩成连续表示的分词器,以及一个动态模型,它根据当前的表示和选择的行动预测下一个世界表示。

 

为了使动态模型更高效,研究人员采用了强制捷径,训练模型在预测未来帧时采取更大的步骤,而不失准确性。结果,Dreamer 4 能够实时生成新的世界表示。此外,他们还结合了跨空间和时间的因果注意力,以及专门的内存技术,使模型能够在单个 GPU 上保持至少每秒 20 帧的最低速度。

 

如上所述,Dreamer 4 是第一个仅从离线数据训练的 Agent,已被证明能够在游戏中挖掘钻石。这可能看起来是一个简单的任务,但实际上它需要基于原始像素数据选择超过 20,000 个鼠标和键盘操作序列。

 

Dreamer 4 在数据使用量减少 100 倍的情况下,显著优于 OpenAI 的 VPT 离线 Agent。它还优于基于微调通用视觉-语言模型的现代行为克隆方法。

 

研究人员还强调,Dreamer 4 优于 Gemma 3,证明他们的方法不仅适用于构建行为克隆 Agent,也可能适用于一般决策制定。

 

在 X 上被问及此事时,Hafner 将 Minecraft 描述为体现 Agent 研究成果的绝佳测试平台,指出虽然挖掘钻石是一个复杂的任务,但它远不是 Minecraft 为测试 Agent 提供的唯一的挑战:

 

我们可以在 Minecraft 上取得更多的通用 AI 进展!Agent 还远未达到人类的游戏水平,而且还有数百个比获得钻石更难的任务。

 

最后,Dreamer 4 还在一个真实世界的机器人数据集上进行了测试,展示了其执行反事实交互的能力。与经常在物体交互的物理性方面挣扎的最新视频模型相比,它显示出了有希望的结果。

 

原文链接:Dreamer 4: Learning to Achieve Goals from Offline Data Through Imagination Training

2025-10-10 14:0316

评论

发布
暂无评论

产品分析:如何给出解决方案?

石云升

产品经理 产品思维 9月日更

模块8作业

Geek_ywh40v

数据仓库的数据从哪来?

奔向架构师

数据仓库 9月日更

架构训练营-模块八作业

hello

架构训练营

手机测试岗位常见面试问题汇总(持续更新中)

IT蜗壳-Tango

9月日更

网络攻防学习笔记 Day143

穿过生命散发芬芳

9月日更 虚拟化技术

架构实战营 模块八 作业

脉醉

#架构实战营

JVM启动参数学习笔记三

风翱

JVM 9月日更

zookeeper迁移实践

小江

zookeeper 迁移数据

linux之dd命令

入门小站

Linux

在线SQL(Insert/Update)语句转JSON工具

入门小站

工具

中秋晴朗夜,我们与星月相见

脑极体

SpringMVC源码分析-HandlerAdapter(2)-RequestMappingHandlerAdapter的初始化

Brave

源码 springmvc 9月日更

架构训练营模块八作业

喻高咏        

架构训练营

【架构设计模块八】:设计消息队列存储消息数据的 MySQL 表格

Ryoma

架构实战营模块8作业

zlz

机场做好这道题,才能万户千家共婵娟

脑极体

Prometheus PushGateway 0.9 和 1.0 的区别

耳东@Erdong

Prometheus PushGateway 9月日更

TCP/IP参考模型与标准协议

Regan Yue

TCP/IP 9月日更

技术圈的【多肉小达人】,一篇文章你就能做到

梦想橡皮擦

9月日更

JavaScript进阶(六)继承

Augus

JavaScript 9月日更

模块八作业

河马先生

架构实战营

Ember.js 项目开发之 Ember Data

devpoint

ember.js 9月日更

高可用延迟队列设计与实现

万俊峰Kevin

微服务 延迟队列 microservice Go 语言 定时队列

Elasticsearch 源码学习(1)源码编译调试

Se7en

架构实战营-模块八作业

以吻封笺

你是一名技术管理者还是项目管理者?

菜根老谭

项目管理 技术管理

中秋晴朗夜,我们与星月相见

白洞计划

架构实战营-模块八作业

老实人Honey

python学习笔记:day1——python入门了解

秦时明月

Python编程

【LeetCode】最后一个单词的长度Java题解

Albert

算法 LeetCode 9月日更

Dreamer 4:通过想象训练,学习从线下数据中实现目标_AI&大模型_Sergio De Simone_InfoQ精选文章