AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

Meta 推出 V-JEPA 2:基于视频的物理推理世界模型

作者:Robert Krzaczyński

  • 2025-06-17
    北京
  • 本文字数:853 字

    阅读完需:约 3 分钟

大小:419.28K时长:02:23
Meta 推出 V-JEPA 2:基于视频的物理推理世界模型

Meta 推出了一款基于视频的新型世界模型,V-JEPA 2,是为提升机器在物理环境中的理解、预测和规划能力。该模型扩展了联合嵌入预测架构(JEPA)框架,并通过视频数据进行训练,以在嵌入空间中预测结果。

 

该模型的训练分为两个阶段。第一阶段,使用超过一百万小时的视频和一百万张图像进行无动作标签的自监督预训练,让模型能够学习运动、物体动力学和互动模式的表征。第二阶段,使用包含视频和动作序列的 62 小时机器人数据进行微调,此阶段让模型能够做出基于动作条件的预测并支持规划。

 

一位 Reddit 用户对此方法评论道:


在嵌入空间中进行预测将提高计算效率,也更接近人类的推理方式……这种方法真切地让我感受到了 AGI(人工通用智能),无论这个系统目前的结果如何。

 

也有用户指出了该方法的局限性。专注于人工智能战略与教育的 Dorian Harris 写道


AGI 所需的能力要比 V-JEPA 2 的专业化焦点更广泛。这是一项重大但狭窄的突破,AGI 里程碑的说法是过于夸大了。

 

在机器人应用中,V-JEPA 2 被用于短期和长期的操控任务。举例来说,当给定一个图像形式的目标时,机器人利用该模型模拟可能的动作,并选择那些能使其更接近目标的动作。系统在每一步都使用模型预测控制循环进行重新规划。Meta 报告称,在涉及新物体和新环境的拾取放置任务中,系统成功率在 65% 至 80% 之间。

 

该模型还在 Something-Something v2Epic-Kitchens-100Perception Test 等基准上进行了评估。在和轻量级读出器(lightweight readouts)结合使用时,它在运动识别和未来动作预测相关任务上表现优异。

 

Meta 还发布了三个专注于视频物理推理的新基准:IntPhys 2(测试识别物理上不可能事件的能力)、MVPBench(评估最小变化下的视频问答能力)和 CausalVQA(专注于因果推理和规划)。

 

Typewise 的首席执行官 David Eberle 指出


预测和适应动态情况的能力,正是让 AI 智能体在现实世界的客户互动中(而不仅仅是在机器人领域)更具情境感知能力所必需的。

 

模型权重、代码和数据集可通过 GitHubHugging Face 获取,社区基准测试也启动了排行榜

2025-06-17 17:003673

评论

发布
暂无评论

主从架构和点对点架构的优劣势对比

paver1023

主从架构 点对点架构

php轻型社交圈系统 微信小程序交流论坛 小程序前后端搭建

DUOKE七七

数字先锋| 物流园区装上“智慧脑”,货运开启加速“跑”!

天翼云开发者社区

云计算 云服务

用友BIP与飞腾服务器芯片互认证,联合打造数智化信创解决方案

用友BIP

全球化| 越南 VSUN集团: 从成本驱动到成本领先,打造光伏智慧经营管理“新名片”

用友BIP

Procedure 框架的设计和应用

Greptime 格睿科技

数据库 分布式 procedure

多客陪玩系统-游戏陪陪玩圈子陪玩社区系统源码开黑约完源码可封装APP教程

DUOKE七七

“土木建筑巨头”遇上“数字基建排头兵”——天翼云赋能高校数智化转型提质增速!

天翼云开发者社区

人工智能 云计算 云服务 大模型

2024大湾区网络安全大会,AOne来了!

天翼云开发者社区

云计算 网络安全

别无脑吹,谈谈国内外ERP系统差异!

积木链小链

数字化 ERP

DDD学习与感悟——向屎山冲锋

京东科技开发者

解锁电商新境界:1688 API接口实战指南——商品详情与关键字搜索全攻略

代码忍者

API 接口 pinduoduo API

2024中国互联网发展创新与投资大赛(开源)总结发布会落幕,DolphinScheduler荣获一等奖

白鲸开源

大数据 开源

白鲸开源斩获三大奖项!2024中国互联网发展创新与投资大赛(开源)在京圆满落幕

白鲸开源

开源 Apache DolphinScheduler DataOps Apache SeaTunnel 白鲸开源

全球数据跨境流动,企业以数据为翼,飞向高质量发展高地

用友BIP

从传统到智能:企业数字化转型的必经之路

天津汇柏科技有限公司

数字化转型 企业数字化

更高效的软件测试报告:使用Allure 2进行用例分类与描述定制

测试人

软件测试

获奖喜讯!Apache SeaTunnel荣获2024中国互联网发展创新与投资大赛(开源)二等奖

白鲸开源

开源 互联网 Apache SeaTunnel

MySQL 主从复制之多线程复制

不在线第一只蜗牛

MySQL 数据库

大数据从业者必知必会的Hive SQL调优技巧

京东科技开发者

"不谋全局者,不足谋一域" ——全域数据治理价值更大

京东科技开发者

Meta 推出 V-JEPA 2:基于视频的物理推理世界模型_AI&大模型_InfoQ精选文章