50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

智元机器人发布并开源首个机器人动作序列驱动的世界模型

  • 2025-05-22
    北京
  • 本文字数:2284 字

    阅读完需:约 7 分钟

大小:1.09M时长:06:19
智元机器人发布并开源首个机器人动作序列驱动的世界模型

近日,智元机器人重磅发布具身智能领域双重里程碑式突破:全球首个基于机器人动作序列驱动的具身世界模型 EVAC (EnerVerse-AC),以及具身世界模型评测基准 EWMBench。这两大创新成果现已全面开源,旨在构建“低成本模拟 - 标准化评测 - 高效迭代”的全新开发范式,持续赋能全球具身智能研究,加速技术落地与产业发展。

 

EVAC arxiv:https://arxiv.org/abs/2505.09723

EVAC 开源代码:https://github.com/AgibotTech/EnerVerse-AC

EWMBench arxiv: https://arxiv.org/abs/2505.09694

EWMBench 开源代码:https://github.com/AgibotTech/EWMBench

 

当前具身智能演进面临两大关键制约:在测试阶段,真机验证代价大、风险高,仿真系统又受制于虚实偏差;在数据层面,海量真机数据尚未构建基于轨迹扩增的高效利用机制,限制了多样性生成与泛化训练。为打破困局,智元机器人在去年发布的世界模型架构 EnerVerse 基础上推出创新成果:基于动作序列驱动的世界模型 EVAC 与具身世界模型评测榜单 EWMBench,构建从训练到评测全链路技术闭环,重新定义具身世界模型研发范式。

全球首个机器人动作序列驱动的世界模型

 

EVAC 是一个能够动态复现机器人与环境复杂交互的世界模型,标志着从传统仿真到生成式模拟的跃迁。


 

核心能力:从 “物理执行” 到“像素空间”的精准映射

 

EVAC 基于前序工作 EnerVerse 架构持续演进,创新型引入多级动作条件注入机制,实现 “物理动作 - 视觉动态” 的端到端生成,其核心能力体现在以下几个方面:


 

  • 机器人动作与像素的高精度对齐:将机械臂 6D 位姿(x,y,z,roll,pitch,yaw)与末端执行器行程投影为 action map,确保物理动作与图像帧的像素级对齐,精准建模 “抓取”、“放置”、“碰撞”、“推拉”、“快速抛掷”、“缓慢摇晃” 等复杂动力学行为;

  • 动态多视图建模:引入 Ray Map 编码相机运动轨迹,支持头部 、腕部等多视角协同生成一致且连贯的视觉场景,赋予机器人更全面的环境生成能力。;

  • 卓越的长时序一致性:采用 Chunk-Wise 自回归扩散架构与稀疏记忆机制(Sparse Memory),EVAC 能够实现单视图稳定生成长达 30 个连续片段、多视图下亦可维持 10 个连续片段的无漂移稳定输出,保证了模拟过程在时间轴上的连贯性与真实性;

  • 数据高效利用:融合 Agibot-World 数据集 + 失败轨迹(如抓取滑脱、路径碰撞)提升生成质量,该策略能有效抑制幻觉现象,使模型能更合理、更全面地建模机器人与环境的交互动态。

生成式仿真评估+数据引擎双轮驱动

 

 

  • 生成式仿真评测

 

针对真机评测成本高、风险大、难以复现等痛点,EVAC 开创性地提出了生成式模拟评测方案,它能与待评测的策略模型进行交替推理,构建起一套完整的交互式评测管线。实验显示,在多个任务中,EVAC 所生成的评测结果与真机评测的成功率具有高度一致性,甚至能够可靠地识别出性能更优的模型权重,大幅提升了策略模型的筛选效率。

 

 

  • 数据增广引擎

 

EVAC 能够基于极少量的专家轨迹数据,通过动作插值与高保真画面生成技术进行大规模数据增广。应用结果表明,采用 EVAC 数据增广数据训练的策略模型,其任务成功率提升高达 29%,目标跟随性得到显著改善,验证了这一方案在具身智能研究中的实用性与高性价比。


 

 打造具身世界模型的 “质检尺”

 

为了科学、系统地衡量具身世界模型的性能表现,智元机器人推出了全球首个具身世界模型评测基准——EWMBench,旨在填补行业空白,构建统一、可信的评测标准。

 

 

三维度评估体系:场景 × 动作 × 语义的立体考核

 

针对机器人操作场景的复杂性与特殊性,EWMBench 构建了立体化的评估体系,从场景一致性、动作合理性 与 语义对齐与多样性 三大核心指标进行分析:

 

  • 场景一致性 Scene Consistency,评估生成场景中背景/物体/视角等稳固度与真实性,采用微调过的 DINOv2 特征进行量化。

  • 动作合理性 Motion Correctness,利用 HSD (Symmetric Hausdorff Distance), nDTW (normalized Dynamic Time Warping) 和 Dynamics Score 三重互补指标协同精确评估生成动作的合理性与动力学真实度。

  • 语义对齐与多样性 Semantic Alignment & Diversity,结合 MLLM(多模态大模型)和 CLIP 从全局指令对齐度、关键步骤语义准确性、逻辑合理性等多个层次对生成视频进行语义理解评估。

 

 

权威数据支撑与便捷开源工具

  • 基准数据集:EWMBench 基于行业领先的开源百万真机数据集 AgiBot World 构建,涵盖了家居、工业、医疗三大场景的 10 类典型机器人操作任务和刚体 / 柔体 / 流体 / 关节物体等多种交互对象,其中包含超过 300 个精心设计的测试样本及 30% 挑战性场景(低光照 / 部分遮挡),全面验证模型在复杂环境下的鲁棒性。

  • 开源评测工具:智元机器人同步开源了全流程评测工具,支持一键生成标准化对比报告,大幅降低评估门槛,方便研究者快速开展模型比较与性能分析,加速实验验证与成果复现。

卓越评测性能:更贴近人类主观感知

 

相较于当前主流视频生成评测基准 VBench,EWMBench 在评测结果与人类主观判断的一致性方面表现更优,能够更真实、细致地反映具身世界模型在交互理解、动作还原与视觉一致性等核心维度的实际能力。


EnerVerse 作为强大的世界模型基础架构,为 EVAC 提供可靠的基础框架与预训练能力,而 EVAC 生成的多样化高质量数据又能反哺 EnerVerse 模型的持续优化,二者形成 “训练 - 验证” 技术闭环,不断推动模型性能突破。通过 EWMBench 提供的精细化、多维度量化分析,研发团队可以精准定位 EVAC 在处理如 “多物体交互”“动态环境避障” 等复杂场景的潜在不足,从而进行更具针对性的优化。

 

据悉,EVAC 与 EWMBench 组合方案,已正式入选 AgiBot World Challenge @ IROS 2025 – World Model 赛道的官方基线系统与评测标准。

2025-05-22 13:126825

评论

发布
暂无评论

王者荣耀商城异地多活架构设计

Fingal

架构实战营

为什么选择学习 Sanic 框架

宇宙之一粟

4月月更 sanic

【PIMF】OpenHarmony啃论文俱乐部——“六脉神剑”详解

离北况归

OpenHarmony Openharmony啃论文俱乐部 六脉神剑

Tuxera NTFS Mac2022磁盘读写工具

茶色酒

Tuxera NTFS Mac2022

泛型真的会让程序变慢吗?(Go1.18新特性)

蔡超

golang 编程 编程、 Go 语言

消息队列存储消息数据的 MySQL 表格

AragornYang

架构训练营 架构实战营

学生管理系统详细架构设计文档

哈喽

「架构实战营」

Linux驱动开发-内核定时器

DS小龙哥

4月月更

15 高可用网站的软件质量保证

爱好编程进阶

Java 面试 后端开发

关于OpenHarmony3.1,想随便聊一点

坚果

OpenHarmony 4月月更

残酷春天里的中国科技(二):和全球供应链一起“仰卧起坐”

脑极体

一文了解异步编程基础

宇宙之一粟

Python 异步编程 4月月更

Dio —— Flutter 网络请求之王者

岛上码农

flutter 移动端开发 4月月更 跨平台开发 安卓 ios

2020年Mybatis常见面试题总结(附答案)

爱好编程进阶

Java 面试 后端开发

下单流程解耦新方案-你知道Spring事件监听机制吗

越长大越悲伤

事件驱动 SpringBoot 2 实战

AirServer2022苹果mac电脑投屏软件工具

茶色酒

AirServer

在线脑图思维导图生成工具

入门小站

工具

在线CSV转多行数据工具

入门小站

工具

如何从 Java 的 List 中删除第一个元素

HoneyMoose

[Day17]-[动态规划]打家劫舍

方勇(gopher)

LeetCode 数据结构和算法

Android C++系列:C++最佳实践4多重继承与虚继承

轻口味

c++ android 4月月更

深入解析JVM-Java对象头组成

janyxe

Java JVM Java内存布局 Java对象头 Java对象组成

10个经典场景带你玩转SQL优化

爱好编程进阶

Java 面试 后端开发

残酷春天里的中国科技(三):持续缠绕的科技封锁线

脑极体

HttpClient使用详解与实战一:普通的GET和POST请求

乌龟哥哥

4月月更

EasyRecovery15数据恢复软件

茶色酒

EasyRecovery15

linux之read命令

入门小站

15 张图 | 深入理解 OpenFeign 远程调用的架构原理

悟空聊架构

Feign 4月日更 悟空聊架构 openfeign 4月月更

设计消息队列存储消息数据的 MySQL 表格

孙强

架构师实战营

13W字!2021最新发布互联网大厂高频面试技术点!

爱好编程进阶

Java 面试 后端开发

2020年最具影响力的4种编程语言 平均薪资20K+

爱好编程进阶

Java 面试 后端开发

智元机器人发布并开源首个机器人动作序列驱动的世界模型_AI&大模型_褚杏娟_InfoQ精选文章