2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

Dreamer 4:通过想象训练,学习从线下数据中实现目标

  • 2025-10-10
    北京
  • 本文字数:955 字

    阅读完需:约 3 分钟

大小:461.05K时长:02:37
Dreamer 4:通过想象训练,学习从线下数据中实现目标

来自谷歌 DeepMind 的研究人员最近介绍了一种新的方法,通过仅在视频片段上训练智能 Agent(而不是通过与环境的直接互动)来解决复杂、长期的任务。他们的新 Agent 名为 Dreamer 4,在经过视频训练后,它展示了在没有实际玩过 Minecraft 游戏的情况下获得在游戏中挖掘钻石的能力。

 

研究人员将他们的方法称为“想象训练”,以强调 Agent 仅从离线数据中学习,而不与物理世界互动。换句话说,训练完全在 Agent 的“想象”中进行,然后应用于现实世界场景。这项功能对于像机器人学科这样的领域尤为重要,研究的作者之一 Danijar Hafner 在 Twitter 上指出,直接在线互动通常是可行的。

 

在一篇配套论文中,研究人员详细描述了他们的方法。他们的模型架构包括两大部分:一个将每个视频帧压缩成连续表示的分词器,以及一个动态模型,它根据当前的表示和选择的行动预测下一个世界表示。

 

为了使动态模型更高效,研究人员采用了强制捷径,训练模型在预测未来帧时采取更大的步骤,而不失准确性。结果,Dreamer 4 能够实时生成新的世界表示。此外,他们还结合了跨空间和时间的因果注意力,以及专门的内存技术,使模型能够在单个 GPU 上保持至少每秒 20 帧的最低速度。

 

如上所述,Dreamer 4 是第一个仅从离线数据训练的 Agent,已被证明能够在游戏中挖掘钻石。这可能看起来是一个简单的任务,但实际上它需要基于原始像素数据选择超过 20,000 个鼠标和键盘操作序列。

 

Dreamer 4 在数据使用量减少 100 倍的情况下,显著优于 OpenAI 的 VPT 离线 Agent。它还优于基于微调通用视觉-语言模型的现代行为克隆方法。

 

研究人员还强调,Dreamer 4 优于 Gemma 3,证明他们的方法不仅适用于构建行为克隆 Agent,也可能适用于一般决策制定。

 

在 X 上被问及此事时,Hafner 将 Minecraft 描述为体现 Agent 研究成果的绝佳测试平台,指出虽然挖掘钻石是一个复杂的任务,但它远不是 Minecraft 为测试 Agent 提供的唯一的挑战:

 

我们可以在 Minecraft 上取得更多的通用 AI 进展!Agent 还远未达到人类的游戏水平,而且还有数百个比获得钻石更难的任务。

 

最后,Dreamer 4 还在一个真实世界的机器人数据集上进行了测试,展示了其执行反事实交互的能力。与经常在物体交互的物理性方面挣扎的最新视频模型相比,它显示出了有希望的结果。

 

原文链接:Dreamer 4: Learning to Achieve Goals from Offline Data Through Imagination Training

2025-10-10 14:035095

评论

发布
暂无评论

华为云GaussDB打造金融行业坚实数据底座,共创数字金融新未来

清欢科技

全球6位IT负责人解读数字化转型不断失败的原因

雨果

数字化转型

DHorse系列文章之镜像制作

tiandizhiguai

云原生 Serverless Kubernetes

使用 Bytebase 管理 Rainbond 上的应用数据库

北京好雨科技有限公司

Zebec开启多链布局,流支付生态持续扩张

西柚子

Serverless 的前世今生

Serverless Devs

刘强东给京东高管降薪:2千多位总监兄弟工资打8折,并拿出100亿保障”兄弟“基础住房

小小怪下士

程序员 京东 刘强东

2023年值得学习的云计算技术有哪些?

wljslmz

云计算 11月月更

HummerRisk V0.5.2:升级对象存储、云检测、云审计和K8s资源态势等

HummerCloud

云原生 k8s #Kubernetes# 云原生安全

jquery 事件绑定及取消 bind live delegate on one区别 (超详细且通俗易懂)

Ankiee

jquery 11月月更

Java岗位必备技能SpringBoot的9道面试题集锦

钟奕礼

Java java程序员 java面试 java编程

大厂数据开发老司机送给数据工程师的10条建议,建议先收藏再细品!

雨果

数据开发

10分钟让你了解应用宝APP上架流程

YonBuilder低代码开发平台

开发者

集世界杯+GameFi元素的MetaElfLand,推出世界杯专场活动

西柚子

华为云安全亮相世界互联网大会

科技怪授

华为云

offset新探索:双管齐下,加速大数据量查询

IT科技苏辞

PCB做SET连片,转批量时发现利用率非常低,有遇到过吗?

华秋PCB

PCB PCB设计 拼板

双机热备与数据备份的关系说明一二

行云管家

数据备份 双机热备

全面焕新|详解 Grafana v9.0.x 新增功能特性

阿里巴巴云原生

阿里云 云原生 Grafana 新功能

NFT盲盒链游DAPP系统开发搭建技术

薇電13242772558

web3

Baklib帮助中心:自助服务指南

Baklib

客户服务 帮助中心

为什么要用 Tair 来服务低延时场景 - 从购物车升级说起

阿里技术

内存数据库 低延时

python常用内置函数用法精要(一)

乔乔

11月月更

kafka实战】分区重分配可能出现的问题和排查问题思路

石臻臻的杂货铺

kafka Kafka实战 11月月更

二面被RocketMQ虐后,狂刷这套实战到源码手册,再战阿里

钟奕礼

Java Java 面试 java程序员 java编程

华为再次入选2022年Gartner® SIEM魔力象限

科技怪授

华为云

5G+云渲染,助力虚拟仿真医学实训

Finovy Cloud

云渲染

不懂“数据服务”,聊什么“数据中台”

雨果

数据中台 数据服务

极客时间架构训练营模块七作业

李晨

架构

温州有等保测评机构吗?听说没有是吗?

行云管家

等保 等保测评

集世界杯+GameFi元素的MetaElfLand,为何将在世界杯期间爆发?

鳄鱼视界

Dreamer 4:通过想象训练,学习从线下数据中实现目标_AI&大模型_Sergio De Simone_InfoQ精选文章