Dreamer 4：通过想象训练，学习从线下数据中实现目标_AI&大模型_Sergio De Simone_InfoQ精选文章



 写点什么

登录/注册



大小：461.05K时长：02:37

Dreamer 4：通过想象训练，学习从线下数据中实现目标

来自谷歌 DeepMind 的研究人员最近介绍了一种新的方法，通过仅在视频片段上训练智能 Agent（而不是通过与环境的直接互动）来解决复杂、长期的任务。他们的新 Agent 名为 Dreamer 4，在经过视频训练后，它展示了在没有实际玩过 Minecraft 游戏的情况下获得在游戏中挖掘钻石的能力。

研究人员将他们的方法称为“想象训练”，以强调 Agent 仅从离线数据中学习，而不与物理世界互动。换句话说，训练完全在 Agent 的“想象”中进行，然后应用于现实世界场景。这项功能对于像机器人学科这样的领域尤为重要，研究的作者之一 Danijar Hafner 在 Twitter 上指出，直接在线互动通常是可行的。

在一篇配套论文中，研究人员详细描述了他们的方法。他们的模型架构包括两大部分：一个将每个视频帧压缩成连续表示的分词器，以及一个动态模型，它根据当前的表示和选择的行动预测下一个世界表示。

为了使动态模型更高效，研究人员采用了强制捷径，训练模型在预测未来帧时采取更大的步骤，而不失准确性。结果，Dreamer 4 能够实时生成新的世界表示。此外，他们还结合了跨空间和时间的因果注意力，以及专门的内存技术，使模型能够在单个 GPU 上保持至少每秒 20 帧的最低速度。

如上所述，Dreamer 4 是第一个仅从离线数据训练的 Agent，已被证明能够在游戏中挖掘钻石。这可能看起来是一个简单的任务，但实际上它需要基于原始像素数据选择超过 20,000 个鼠标和键盘操作序列。

Dreamer 4 在数据使用量减少 100 倍的情况下，显著优于 OpenAI 的 VPT 离线 Agent。它还优于基于微调通用视觉-语言模型的现代行为克隆方法。

研究人员还强调，Dreamer 4 优于 Gemma 3，证明他们的方法不仅适用于构建行为克隆 Agent，也可能适用于一般决策制定。

在 X 上被问及此事时，Hafner 将 Minecraft 描述为体现 Agent 研究成果的绝佳测试平台，指出虽然挖掘钻石是一个复杂的任务，但它远不是 Minecraft 为测试 Agent 提供的唯一的挑战：

我们可以在 Minecraft 上取得更多的通用 AI 进展！Agent 还远未达到人类的游戏水平，而且还有数百个比获得钻石更难的任务。

最后，Dreamer 4 还在一个真实世界的机器人数据集上进行了测试，展示了其执行反事实交互的能力。与经常在物体交互的物理性方面挣扎的最新视频模型相比，它显示出了有希望的结果。

原文链接：Dreamer 4: Learning to Achieve Goals from Offline Data Through Imagination Training

评论

发布

暂无评论

产品分析：如何给出解决方案？

产品经理产品思维 9月日更

模块8作业

数据仓库的数据从哪来？

奔向架构师

数据仓库 9月日更

架构训练营-模块八作业

架构训练营

手机测试岗位常见面试问题汇总（持续更新中）

网络攻防学习笔记 Day143

穿过生命散发芬芳

9月日更虚拟化技术

架构实战营模块八作业

#架构实战营

JVM启动参数学习笔记三

zookeeper迁移实践

zookeeper 迁移数据

linux之dd命令

在线SQL(Insert/Update)语句转JSON工具

中秋晴朗夜，我们与星月相见

SpringMVC源码分析-HandlerAdapter(2)-RequestMappingHandlerAdapter的初始化

源码 springmvc 9月日更

架构训练营模块八作业

喻高咏　　　　　　　　

架构训练营

【架构设计模块八】：设计消息队列存储消息数据的 MySQL 表格

架构实战营模块8作业

机场做好这道题，才能万户千家共婵娟

Prometheus PushGateway 0.9 和 1.0 的区别

Prometheus PushGateway 9月日更

TCP/IP参考模型与标准协议

TCP/IP 9月日更

技术圈的【多肉小达人】，一篇文章你就能做到

梦想橡皮擦

JavaScript进阶（六）继承

JavaScript 9月日更

模块八作业

架构实战营

Ember.js 项目开发之 Ember Data

ember.js 9月日更

高可用延迟队列设计与实现

微服务延迟队列 microservice Go 语言定时队列

Elasticsearch 源码学习（1）源码编译调试

架构实战营-模块八作业

你是一名技术管理者还是项目管理者？

项目管理技术管理

中秋晴朗夜，我们与星月相见

架构实战营-模块八作业

python学习笔记：day1——python入门了解

【LeetCode】最后一个单词的长度Java题解

算法 LeetCode 9月日更