大厂Data+Agent 秘籍:腾讯/阿里/字节解析如何提升数据分析智能。 了解详情
写点什么

智元机器人发布并开源首个机器人动作序列驱动的世界模型

  • 2025-05-22
    北京
  • 本文字数:2284 字

    阅读完需:约 7 分钟

大小:1.09M时长:06:19
智元机器人发布并开源首个机器人动作序列驱动的世界模型

近日,智元机器人重磅发布具身智能领域双重里程碑式突破:全球首个基于机器人动作序列驱动的具身世界模型 EVAC (EnerVerse-AC),以及具身世界模型评测基准 EWMBench。这两大创新成果现已全面开源,旨在构建“低成本模拟 - 标准化评测 - 高效迭代”的全新开发范式,持续赋能全球具身智能研究,加速技术落地与产业发展。

 

EVAC arxiv:https://arxiv.org/abs/2505.09723

EVAC 开源代码:https://github.com/AgibotTech/EnerVerse-AC

EWMBench arxiv: https://arxiv.org/abs/2505.09694

EWMBench 开源代码:https://github.com/AgibotTech/EWMBench

 

当前具身智能演进面临两大关键制约:在测试阶段,真机验证代价大、风险高,仿真系统又受制于虚实偏差;在数据层面,海量真机数据尚未构建基于轨迹扩增的高效利用机制,限制了多样性生成与泛化训练。为打破困局,智元机器人在去年发布的世界模型架构 EnerVerse 基础上推出创新成果:基于动作序列驱动的世界模型 EVAC 与具身世界模型评测榜单 EWMBench,构建从训练到评测全链路技术闭环,重新定义具身世界模型研发范式。

全球首个机器人动作序列驱动的世界模型

 

EVAC 是一个能够动态复现机器人与环境复杂交互的世界模型,标志着从传统仿真到生成式模拟的跃迁。


 

核心能力:从 “物理执行” 到“像素空间”的精准映射

 

EVAC 基于前序工作 EnerVerse 架构持续演进,创新型引入多级动作条件注入机制,实现 “物理动作 - 视觉动态” 的端到端生成,其核心能力体现在以下几个方面:


 

  • 机器人动作与像素的高精度对齐:将机械臂 6D 位姿(x,y,z,roll,pitch,yaw)与末端执行器行程投影为 action map,确保物理动作与图像帧的像素级对齐,精准建模 “抓取”、“放置”、“碰撞”、“推拉”、“快速抛掷”、“缓慢摇晃” 等复杂动力学行为;

  • 动态多视图建模:引入 Ray Map 编码相机运动轨迹,支持头部 、腕部等多视角协同生成一致且连贯的视觉场景,赋予机器人更全面的环境生成能力。;

  • 卓越的长时序一致性:采用 Chunk-Wise 自回归扩散架构与稀疏记忆机制(Sparse Memory),EVAC 能够实现单视图稳定生成长达 30 个连续片段、多视图下亦可维持 10 个连续片段的无漂移稳定输出,保证了模拟过程在时间轴上的连贯性与真实性;

  • 数据高效利用:融合 Agibot-World 数据集 + 失败轨迹(如抓取滑脱、路径碰撞)提升生成质量,该策略能有效抑制幻觉现象,使模型能更合理、更全面地建模机器人与环境的交互动态。

生成式仿真评估+数据引擎双轮驱动

 

 

  • 生成式仿真评测

 

针对真机评测成本高、风险大、难以复现等痛点,EVAC 开创性地提出了生成式模拟评测方案,它能与待评测的策略模型进行交替推理,构建起一套完整的交互式评测管线。实验显示,在多个任务中,EVAC 所生成的评测结果与真机评测的成功率具有高度一致性,甚至能够可靠地识别出性能更优的模型权重,大幅提升了策略模型的筛选效率。

 

 

  • 数据增广引擎

 

EVAC 能够基于极少量的专家轨迹数据,通过动作插值与高保真画面生成技术进行大规模数据增广。应用结果表明,采用 EVAC 数据增广数据训练的策略模型,其任务成功率提升高达 29%,目标跟随性得到显著改善,验证了这一方案在具身智能研究中的实用性与高性价比。


 

 打造具身世界模型的 “质检尺”

 

为了科学、系统地衡量具身世界模型的性能表现,智元机器人推出了全球首个具身世界模型评测基准——EWMBench,旨在填补行业空白,构建统一、可信的评测标准。

 

 

三维度评估体系:场景 × 动作 × 语义的立体考核

 

针对机器人操作场景的复杂性与特殊性,EWMBench 构建了立体化的评估体系,从场景一致性、动作合理性 与 语义对齐与多样性 三大核心指标进行分析:

 

  • 场景一致性 Scene Consistency,评估生成场景中背景/物体/视角等稳固度与真实性,采用微调过的 DINOv2 特征进行量化。

  • 动作合理性 Motion Correctness,利用 HSD (Symmetric Hausdorff Distance), nDTW (normalized Dynamic Time Warping) 和 Dynamics Score 三重互补指标协同精确评估生成动作的合理性与动力学真实度。

  • 语义对齐与多样性 Semantic Alignment & Diversity,结合 MLLM(多模态大模型)和 CLIP 从全局指令对齐度、关键步骤语义准确性、逻辑合理性等多个层次对生成视频进行语义理解评估。

 

 

权威数据支撑与便捷开源工具

  • 基准数据集:EWMBench 基于行业领先的开源百万真机数据集 AgiBot World 构建,涵盖了家居、工业、医疗三大场景的 10 类典型机器人操作任务和刚体 / 柔体 / 流体 / 关节物体等多种交互对象,其中包含超过 300 个精心设计的测试样本及 30% 挑战性场景(低光照 / 部分遮挡),全面验证模型在复杂环境下的鲁棒性。

  • 开源评测工具:智元机器人同步开源了全流程评测工具,支持一键生成标准化对比报告,大幅降低评估门槛,方便研究者快速开展模型比较与性能分析,加速实验验证与成果复现。

卓越评测性能:更贴近人类主观感知

 

相较于当前主流视频生成评测基准 VBench,EWMBench 在评测结果与人类主观判断的一致性方面表现更优,能够更真实、细致地反映具身世界模型在交互理解、动作还原与视觉一致性等核心维度的实际能力。


EnerVerse 作为强大的世界模型基础架构,为 EVAC 提供可靠的基础框架与预训练能力,而 EVAC 生成的多样化高质量数据又能反哺 EnerVerse 模型的持续优化,二者形成 “训练 - 验证” 技术闭环,不断推动模型性能突破。通过 EWMBench 提供的精细化、多维度量化分析,研发团队可以精准定位 EVAC 在处理如 “多物体交互”“动态环境避障” 等复杂场景的潜在不足,从而进行更具针对性的优化。

 

据悉,EVAC 与 EWMBench 组合方案,已正式入选 AgiBot World Challenge @ IROS 2025 – World Model 赛道的官方基线系统与评测标准。

2025-05-22 13:126615

评论

发布
暂无评论

使用人工智能技术改进面试机器人

陆道峰

人工智能 学习 聊天机器人

如何快速对应用系统做一个360度画像诊断?

姜戈

Java 运维 多线程 网络 内存

Redis 命令执行过程(上)

程序员历小冰

redis 源码分析

真实 Java 笔试题

旭霁

面试

数据库连接池的大小

Java收录阁

数据库

关于职能型团队管理一些总结

黄大路

项目管理 管理

Java 环境配置与编辑器使用

旭霁

Java IDEA

DevOps怎样影响开发运维人员

脚动两轮男之漂流小王子

DevOps

Java并发编程--ReentrantLock

Java收录阁

并发编程

数据挖掘|cross_val_score交叉验证使用

黄大路

Python 数据挖掘 学习 数据分析

面试官浅析程序员面试过程中的二三事

joe

互联网 个人成长 方法 职场 文化

程序员的晚餐 | 5月9日 炖蹄髈

清远

程序员

腊鸡与猴儿

黄大路

人生 小说

拜托,别再问我Zookeeper如何实现分布式锁了!

不才陈某

zookeeper 分布式 后端 分布式锁

直播电商行业一些看法

黄大路

互联网 商业 商业模式 商业价值 行业资讯

Elasticsearch原理讲透了!

Geek_0o5u34

lucene elasticsearch 倒排索引 分布式搜索引擎 数据的分片和备份

向上管理第一项:路径P背后的目标B

kimmking

管理

产品经理中必会SQL技能,相关内容研发可不予支持

韩超

MySQL sql 产品经理

如何打造个人品牌?

石云升

个人 品牌

回"疫"录(11):别让善良寒了心

小天同学

疫情 回忆录 现实纪录 纪实

一个 UED 团队的自我修养

oldj

团队管理 UED

做程序员有未来吗

山楂大卷

程序员 个人成长 职业规划 技术人

关于查尔斯-斯特里克兰

黄大路

提升认知 小说 个人提升 认识自己

以不变应万变——复杂系统回归测试新思路

刘华Kenneth

DevOps 敏捷 测试 单体系统 复杂

来了来了,2020 首场 Meetup ,可!

Apache Flink

大数据 flink 流计算 实时计算

读 Go Scheduler 有感:给产品经理的建议

Ya

程序员 产品经理 操作系统 OS Scheduler

高仿瑞幸小程序 04 小程序的全局数据

曾伟@喵先森

小程序 微信小程序 大前端

Scrum精髓 - Scrum的核心到底是什么

Bob Jiang

Scrum 敏捷 Scrum精髓 敏捷精髓

ROS与OpenAI结合使用教程(概览)

辣么大

游戏夜读 | 联网才能玩的单机

game1night

理解雾计算(Fog Computing)与边缘计算(Edge Computing)

老任物联网杂谈

雾计算 Fog Computing 边缘计算 Edge Computing

智元机器人发布并开源首个机器人动作序列驱动的世界模型_AI&大模型_褚杏娟_InfoQ精选文章