#阿里云 #飞天发布时刻 正在直播!中企出海的「技术引擎」来了! 了解详情
写点什么

智元机器人发布并开源首个机器人动作序列驱动的世界模型

  • 2025-05-22
    北京
  • 本文字数:2284 字

    阅读完需:约 7 分钟

大小:1.09M时长:06:19
智元机器人发布并开源首个机器人动作序列驱动的世界模型

近日,智元机器人重磅发布具身智能领域双重里程碑式突破:全球首个基于机器人动作序列驱动的具身世界模型 EVAC (EnerVerse-AC),以及具身世界模型评测基准 EWMBench。这两大创新成果现已全面开源,旨在构建“低成本模拟 - 标准化评测 - 高效迭代”的全新开发范式,持续赋能全球具身智能研究,加速技术落地与产业发展。

 

EVAC arxiv:https://arxiv.org/abs/2505.09723

EVAC 开源代码:https://github.com/AgibotTech/EnerVerse-AC

EWMBench arxiv: https://arxiv.org/abs/2505.09694

EWMBench 开源代码:https://github.com/AgibotTech/EWMBench

 

当前具身智能演进面临两大关键制约:在测试阶段,真机验证代价大、风险高,仿真系统又受制于虚实偏差;在数据层面,海量真机数据尚未构建基于轨迹扩增的高效利用机制,限制了多样性生成与泛化训练。为打破困局,智元机器人在去年发布的世界模型架构 EnerVerse 基础上推出创新成果:基于动作序列驱动的世界模型 EVAC 与具身世界模型评测榜单 EWMBench,构建从训练到评测全链路技术闭环,重新定义具身世界模型研发范式。

全球首个机器人动作序列驱动的世界模型

 

EVAC 是一个能够动态复现机器人与环境复杂交互的世界模型,标志着从传统仿真到生成式模拟的跃迁。


 

核心能力:从 “物理执行” 到“像素空间”的精准映射

 

EVAC 基于前序工作 EnerVerse 架构持续演进,创新型引入多级动作条件注入机制,实现 “物理动作 - 视觉动态” 的端到端生成,其核心能力体现在以下几个方面:


 

  • 机器人动作与像素的高精度对齐:将机械臂 6D 位姿(x,y,z,roll,pitch,yaw)与末端执行器行程投影为 action map,确保物理动作与图像帧的像素级对齐,精准建模 “抓取”、“放置”、“碰撞”、“推拉”、“快速抛掷”、“缓慢摇晃” 等复杂动力学行为;

  • 动态多视图建模:引入 Ray Map 编码相机运动轨迹,支持头部 、腕部等多视角协同生成一致且连贯的视觉场景,赋予机器人更全面的环境生成能力。;

  • 卓越的长时序一致性:采用 Chunk-Wise 自回归扩散架构与稀疏记忆机制(Sparse Memory),EVAC 能够实现单视图稳定生成长达 30 个连续片段、多视图下亦可维持 10 个连续片段的无漂移稳定输出,保证了模拟过程在时间轴上的连贯性与真实性;

  • 数据高效利用:融合 Agibot-World 数据集 + 失败轨迹(如抓取滑脱、路径碰撞)提升生成质量,该策略能有效抑制幻觉现象,使模型能更合理、更全面地建模机器人与环境的交互动态。

生成式仿真评估+数据引擎双轮驱动

 

 

  • 生成式仿真评测

 

针对真机评测成本高、风险大、难以复现等痛点,EVAC 开创性地提出了生成式模拟评测方案,它能与待评测的策略模型进行交替推理,构建起一套完整的交互式评测管线。实验显示,在多个任务中,EVAC 所生成的评测结果与真机评测的成功率具有高度一致性,甚至能够可靠地识别出性能更优的模型权重,大幅提升了策略模型的筛选效率。

 

 

  • 数据增广引擎

 

EVAC 能够基于极少量的专家轨迹数据,通过动作插值与高保真画面生成技术进行大规模数据增广。应用结果表明,采用 EVAC 数据增广数据训练的策略模型,其任务成功率提升高达 29%,目标跟随性得到显著改善,验证了这一方案在具身智能研究中的实用性与高性价比。


 

 打造具身世界模型的 “质检尺”

 

为了科学、系统地衡量具身世界模型的性能表现,智元机器人推出了全球首个具身世界模型评测基准——EWMBench,旨在填补行业空白,构建统一、可信的评测标准。

 

 

三维度评估体系:场景 × 动作 × 语义的立体考核

 

针对机器人操作场景的复杂性与特殊性,EWMBench 构建了立体化的评估体系,从场景一致性、动作合理性 与 语义对齐与多样性 三大核心指标进行分析:

 

  • 场景一致性 Scene Consistency,评估生成场景中背景/物体/视角等稳固度与真实性,采用微调过的 DINOv2 特征进行量化。

  • 动作合理性 Motion Correctness,利用 HSD (Symmetric Hausdorff Distance), nDTW (normalized Dynamic Time Warping) 和 Dynamics Score 三重互补指标协同精确评估生成动作的合理性与动力学真实度。

  • 语义对齐与多样性 Semantic Alignment & Diversity,结合 MLLM(多模态大模型)和 CLIP 从全局指令对齐度、关键步骤语义准确性、逻辑合理性等多个层次对生成视频进行语义理解评估。

 

 

权威数据支撑与便捷开源工具

  • 基准数据集:EWMBench 基于行业领先的开源百万真机数据集 AgiBot World 构建,涵盖了家居、工业、医疗三大场景的 10 类典型机器人操作任务和刚体 / 柔体 / 流体 / 关节物体等多种交互对象,其中包含超过 300 个精心设计的测试样本及 30% 挑战性场景(低光照 / 部分遮挡),全面验证模型在复杂环境下的鲁棒性。

  • 开源评测工具:智元机器人同步开源了全流程评测工具,支持一键生成标准化对比报告,大幅降低评估门槛,方便研究者快速开展模型比较与性能分析,加速实验验证与成果复现。

卓越评测性能:更贴近人类主观感知

 

相较于当前主流视频生成评测基准 VBench,EWMBench 在评测结果与人类主观判断的一致性方面表现更优,能够更真实、细致地反映具身世界模型在交互理解、动作还原与视觉一致性等核心维度的实际能力。


EnerVerse 作为强大的世界模型基础架构,为 EVAC 提供可靠的基础框架与预训练能力,而 EVAC 生成的多样化高质量数据又能反哺 EnerVerse 模型的持续优化,二者形成 “训练 - 验证” 技术闭环,不断推动模型性能突破。通过 EWMBench 提供的精细化、多维度量化分析,研发团队可以精准定位 EVAC 在处理如 “多物体交互”“动态环境避障” 等复杂场景的潜在不足,从而进行更具针对性的优化。

 

据悉,EVAC 与 EWMBench 组合方案,已正式入选 AgiBot World Challenge @ IROS 2025 – World Model 赛道的官方基线系统与评测标准。

2025-05-22 13:1210

评论

发布
暂无评论

一文读懂私有云、公有云和本地化部署

青椒云云电脑

公有云 私有云

Footprint Analytics 为 ABGA Web3 Gaming Summit 提供支持,助力 Web3 游戏行业发展

Footprint Analytics

序列化与反序列化一棵树

程序员在修行

从实时监控到智能洞察:Grafana 和 CnosDB 的无限潜力

CnosDB

时序数据库 开源社区 CnosDB

ARTS 打卡第四周

程序员在修行

数据通信网络之IPv6以太网单臂路由

timerring

数据通信网络

云迁移?是技术问题也是团队问题

在天涯的海角

与中小企业共生共赢,华为云B2B企业节来了

YG科技

议题征集|Flink Forward Asia 2023 正式启动

Apache Flink

flink

Databend 开源周报第 110 期

Databend

英文阅读 The manager's path 1.3

程序员在修行

关于身心灵学习的感悟1

程序员在修行

828 B2B企业节,华为云如何提升生态合作伙伴的综合竞争力?

YG科技

百度智能云千帆社区上线有礼,助力开发者开启大模型之路!

科技热闻

Mybatis中传递多个参数的4种方法

源字节1号

开源 软件开发 前端开发 后端开发 小程序开发

数字化转型与架构-架构设计篇|如何开发一个各部门都满意的系统?

数字随行

数字化转型

使用消息队列有什么优点?有什么缺点?

程序员在修行

Ask Milvus Anything!聊聊被社区反复@的那些事儿 Ⅰ

Zilliz

非结构化数据 Milvus 向量数据库 deepdive

【转载】JVM实际内存占用超过Xmx的原因,设置Xmx的技巧

虚实的星空

Java

如何赋能企业数字化转型?华为云有妙招

YG科技

INFINI Easysearch 与兆芯完成产品兼容互认证

极限实验室

easysearch 兆芯 国产适配

亚信科技与中国信通院达成全方位、跨领域战略合作

亚信AntDB数据库

AntDB 国产数据库 AntDB数据库

Last Week in Milvus

Zilliz

非结构化数据 Milvus Zilliz 向量数据库

从构建者到设计者的低代码之路

树上有只程序猿

软件开发 低代码

高校云桌面的“正确打开方式”是什么?

青椒云云电脑

云桌面 云桌面方案

9月24日,线下见个面?

MatrixOrigin

数据库 分布式 MatrixOrigin MatrixOne

用AI提高代码质量,同事对我的代码赞不绝口~

飞算JavaAI开发助手

ARTS 打卡 第一周,初试ARTS

三掌柜

ARTS 打卡计划

智元机器人发布并开源首个机器人动作序列驱动的世界模型_AI&大模型_褚杏娟_InfoQ精选文章