AICon 深圳站 Keynote 嘉宾官宣!共探AI价值转化的实践路径 了解详情
写点什么

智元机器人发布并开源首个机器人动作序列驱动的世界模型

  • 2025-05-22
    北京
  • 本文字数:2284 字

    阅读完需:约 7 分钟

大小:1.09M时长:06:19
智元机器人发布并开源首个机器人动作序列驱动的世界模型

近日,智元机器人重磅发布具身智能领域双重里程碑式突破:全球首个基于机器人动作序列驱动的具身世界模型 EVAC (EnerVerse-AC),以及具身世界模型评测基准 EWMBench。这两大创新成果现已全面开源,旨在构建“低成本模拟 - 标准化评测 - 高效迭代”的全新开发范式,持续赋能全球具身智能研究,加速技术落地与产业发展。

 

EVAC arxiv:https://arxiv.org/abs/2505.09723

EVAC 开源代码:https://github.com/AgibotTech/EnerVerse-AC

EWMBench arxiv: https://arxiv.org/abs/2505.09694

EWMBench 开源代码:https://github.com/AgibotTech/EWMBench

 

当前具身智能演进面临两大关键制约:在测试阶段,真机验证代价大、风险高,仿真系统又受制于虚实偏差;在数据层面,海量真机数据尚未构建基于轨迹扩增的高效利用机制,限制了多样性生成与泛化训练。为打破困局,智元机器人在去年发布的世界模型架构 EnerVerse 基础上推出创新成果:基于动作序列驱动的世界模型 EVAC 与具身世界模型评测榜单 EWMBench,构建从训练到评测全链路技术闭环,重新定义具身世界模型研发范式。

全球首个机器人动作序列驱动的世界模型

 

EVAC 是一个能够动态复现机器人与环境复杂交互的世界模型,标志着从传统仿真到生成式模拟的跃迁。


 

核心能力:从 “物理执行” 到“像素空间”的精准映射

 

EVAC 基于前序工作 EnerVerse 架构持续演进,创新型引入多级动作条件注入机制,实现 “物理动作 - 视觉动态” 的端到端生成,其核心能力体现在以下几个方面:


 

  • 机器人动作与像素的高精度对齐:将机械臂 6D 位姿(x,y,z,roll,pitch,yaw)与末端执行器行程投影为 action map,确保物理动作与图像帧的像素级对齐,精准建模 “抓取”、“放置”、“碰撞”、“推拉”、“快速抛掷”、“缓慢摇晃” 等复杂动力学行为;

  • 动态多视图建模:引入 Ray Map 编码相机运动轨迹,支持头部 、腕部等多视角协同生成一致且连贯的视觉场景,赋予机器人更全面的环境生成能力。;

  • 卓越的长时序一致性:采用 Chunk-Wise 自回归扩散架构与稀疏记忆机制(Sparse Memory),EVAC 能够实现单视图稳定生成长达 30 个连续片段、多视图下亦可维持 10 个连续片段的无漂移稳定输出,保证了模拟过程在时间轴上的连贯性与真实性;

  • 数据高效利用:融合 Agibot-World 数据集 + 失败轨迹(如抓取滑脱、路径碰撞)提升生成质量,该策略能有效抑制幻觉现象,使模型能更合理、更全面地建模机器人与环境的交互动态。

生成式仿真评估+数据引擎双轮驱动

 

 

  • 生成式仿真评测

 

针对真机评测成本高、风险大、难以复现等痛点,EVAC 开创性地提出了生成式模拟评测方案,它能与待评测的策略模型进行交替推理,构建起一套完整的交互式评测管线。实验显示,在多个任务中,EVAC 所生成的评测结果与真机评测的成功率具有高度一致性,甚至能够可靠地识别出性能更优的模型权重,大幅提升了策略模型的筛选效率。

 

 

  • 数据增广引擎

 

EVAC 能够基于极少量的专家轨迹数据,通过动作插值与高保真画面生成技术进行大规模数据增广。应用结果表明,采用 EVAC 数据增广数据训练的策略模型,其任务成功率提升高达 29%,目标跟随性得到显著改善,验证了这一方案在具身智能研究中的实用性与高性价比。


 

 打造具身世界模型的 “质检尺”

 

为了科学、系统地衡量具身世界模型的性能表现,智元机器人推出了全球首个具身世界模型评测基准——EWMBench,旨在填补行业空白,构建统一、可信的评测标准。

 

 

三维度评估体系:场景 × 动作 × 语义的立体考核

 

针对机器人操作场景的复杂性与特殊性,EWMBench 构建了立体化的评估体系,从场景一致性、动作合理性 与 语义对齐与多样性 三大核心指标进行分析:

 

  • 场景一致性 Scene Consistency,评估生成场景中背景/物体/视角等稳固度与真实性,采用微调过的 DINOv2 特征进行量化。

  • 动作合理性 Motion Correctness,利用 HSD (Symmetric Hausdorff Distance), nDTW (normalized Dynamic Time Warping) 和 Dynamics Score 三重互补指标协同精确评估生成动作的合理性与动力学真实度。

  • 语义对齐与多样性 Semantic Alignment & Diversity,结合 MLLM(多模态大模型)和 CLIP 从全局指令对齐度、关键步骤语义准确性、逻辑合理性等多个层次对生成视频进行语义理解评估。

 

 

权威数据支撑与便捷开源工具

  • 基准数据集:EWMBench 基于行业领先的开源百万真机数据集 AgiBot World 构建,涵盖了家居、工业、医疗三大场景的 10 类典型机器人操作任务和刚体 / 柔体 / 流体 / 关节物体等多种交互对象,其中包含超过 300 个精心设计的测试样本及 30% 挑战性场景(低光照 / 部分遮挡),全面验证模型在复杂环境下的鲁棒性。

  • 开源评测工具:智元机器人同步开源了全流程评测工具,支持一键生成标准化对比报告,大幅降低评估门槛,方便研究者快速开展模型比较与性能分析,加速实验验证与成果复现。

卓越评测性能:更贴近人类主观感知

 

相较于当前主流视频生成评测基准 VBench,EWMBench 在评测结果与人类主观判断的一致性方面表现更优,能够更真实、细致地反映具身世界模型在交互理解、动作还原与视觉一致性等核心维度的实际能力。


EnerVerse 作为强大的世界模型基础架构,为 EVAC 提供可靠的基础框架与预训练能力,而 EVAC 生成的多样化高质量数据又能反哺 EnerVerse 模型的持续优化,二者形成 “训练 - 验证” 技术闭环,不断推动模型性能突破。通过 EWMBench 提供的精细化、多维度量化分析,研发团队可以精准定位 EVAC 在处理如 “多物体交互”“动态环境避障” 等复杂场景的潜在不足,从而进行更具针对性的优化。

 

据悉,EVAC 与 EWMBench 组合方案,已正式入选 AgiBot World Challenge @ IROS 2025 – World Model 赛道的官方基线系统与评测标准。

2025-05-22 13:126675

评论

发布
暂无评论

自制操作系统番外:编程语言中变量是如何存储的

编程语言

MySQL锁,锁的到底是什么?

蝉沐风

MySQL innodb MVCC

Camtasia Studio2023软件和谐版录制电脑屏幕软件

茶色酒

Camtasia Studio2023

架构实战营-模块1作业

小圆

iMazing2023全新版下载安装使用介绍

茶色酒

imazing2023

Flutter — 仅用三个步骤就能帮你把文本变得炫酷!

编程的平行世界

flutter android

架构实战营模块一作业

张Dave

企业如何应对开源软件供应链安全问题?

安势信息

开源 开源安全 软件供应链安全 开源安全与治理 清源CleanSource SCA

AngularJS进阶(二十)HTML5实现获取地理位置信息并定位功能

No Silver Bullet

H5 AngularJS 12月月更 地理位置

AngularJS进阶(十七)在AngularJS应用中集成微信认证授权遇到的坑

No Silver Bullet

AngularJS 12月月更 微信认证授权

深入理解PKI

俞凡

架构 网络安全 网络

为什么FDA和MITRE也提及SBOM ? - 解读《医疗器械网络安全区域事件准备和响应手册》

安势信息

网络安全 SCA工具 SBOM 医疗器械 安势信息

bat脚本常用命令及测试

@下一站

软件开发 BAT 12月日更 12月月更

深刻理解JAVA并发中的有序性问题和解决之道

JAVA旭阳

Java Java并发

再突破!MatrixDB 在 PostgreSQL 领域获双重大奖!

YMatrix 超融合数据库

数据库 postgresql 超融合数据库 YMatrix

【愚公系列】2022年12月 微信小程序-组件模板和组件样式

愚公搬代码

12月月更

极客时间架构训练营作业-模块一

张建闯

架构实战营

架构训练营模块1作业

附加信息

架构训练营

Camtasia2023录屏和剪辑合一的软件

茶色酒

Camtasia2023

MongoDB源码学习:catalog与storage

云里有只猫

mongodb 源码刨析

Golong Context package

陈庆宗

Context #go

Python:灵活的开发环境

eng八戒

Python Python自动化办公

架构实战营 1-5 学生管理系统实战随堂测验

西山薄凉

「架构实战营」

实时数据赋能制造业产能升级:详解半导体和汽车制造行业最佳实践(活动报名)

tapdata

制造业 数据集成 汽车制造 实时数据 半导体行业

AngularJS进阶(十九)在AngularJS应用中集成百度地图实现定位功能

No Silver Bullet

定位 百度地图 AngularJS 12月月更

Centos7.x部署K8S集群 (基于containerd 运行时)

蜗牛也是牛

DevOps真死了?平台工程真有用?

agnostic

DevOps 平台工程

编码开发如何开展API安全实现

穿过生命散发芬芳

12月月更

2022-12-04:给定一个由 ‘[‘ ,‘]‘,‘(‘,‘)’ 组成的字符串, 请问最少插入多少个括号就能使这个字符串的所有括号左右配对, 例如当前串是 “([[])“,那么插入一个‘]‘即可满足

福大大架构师每日一题

算法 rust 福大大

足球比赛中的数据科学

CnosDB

数据库 时序数据库 开源社区 CnosDB infra

Flink on Yarn三部曲之三:提交Flink任务

程序员欣宸

flink YARN 12月月更

智元机器人发布并开源首个机器人动作序列驱动的世界模型_AI&大模型_褚杏娟_InfoQ精选文章