写点什么

Meta 推出 V-JEPA 2:基于视频的物理推理世界模型

作者:Robert Krzaczyński

  • 2025-06-17
    北京
  • 本文字数:853 字

    阅读完需:约 3 分钟

大小:419.28K时长:02:23
Meta 推出 V-JEPA 2:基于视频的物理推理世界模型

Meta 推出了一款基于视频的新型世界模型,V-JEPA 2,是为提升机器在物理环境中的理解、预测和规划能力。该模型扩展了联合嵌入预测架构(JEPA)框架,并通过视频数据进行训练,以在嵌入空间中预测结果。

 

该模型的训练分为两个阶段。第一阶段,使用超过一百万小时的视频和一百万张图像进行无动作标签的自监督预训练,让模型能够学习运动、物体动力学和互动模式的表征。第二阶段,使用包含视频和动作序列的 62 小时机器人数据进行微调,此阶段让模型能够做出基于动作条件的预测并支持规划。

 

一位 Reddit 用户对此方法评论道:


在嵌入空间中进行预测将提高计算效率,也更接近人类的推理方式……这种方法真切地让我感受到了 AGI(人工通用智能),无论这个系统目前的结果如何。

 

也有用户指出了该方法的局限性。专注于人工智能战略与教育的 Dorian Harris 写道


AGI 所需的能力要比 V-JEPA 2 的专业化焦点更广泛。这是一项重大但狭窄的突破,AGI 里程碑的说法是过于夸大了。

 

在机器人应用中,V-JEPA 2 被用于短期和长期的操控任务。举例来说,当给定一个图像形式的目标时,机器人利用该模型模拟可能的动作,并选择那些能使其更接近目标的动作。系统在每一步都使用模型预测控制循环进行重新规划。Meta 报告称,在涉及新物体和新环境的拾取放置任务中,系统成功率在 65% 至 80% 之间。

 

该模型还在 Something-Something v2Epic-Kitchens-100Perception Test 等基准上进行了评估。在和轻量级读出器(lightweight readouts)结合使用时,它在运动识别和未来动作预测相关任务上表现优异。

 

Meta 还发布了三个专注于视频物理推理的新基准:IntPhys 2(测试识别物理上不可能事件的能力)、MVPBench(评估最小变化下的视频问答能力)和 CausalVQA(专注于因果推理和规划)。

 

Typewise 的首席执行官 David Eberle 指出


预测和适应动态情况的能力,正是让 AI 智能体在现实世界的客户互动中(而不仅仅是在机器人领域)更具情境感知能力所必需的。

 

模型权重、代码和数据集可通过 GitHubHugging Face 获取,社区基准测试也启动了排行榜

2025-06-17 17:003838

评论

发布
暂无评论

征服数据宇宙,新华三存储护卫队早有准备?

脑极体

存储

加入华为云AIGC实战营,一起探索AI前沿技术!

科技热闻

【活动回顾】Rust:构建新时代基础设施的首选语言 @Qcon

Databend

亚马逊 CodeWhisperer 初体验

亚马逊云科技 (Amazon Web Services)

JavaScript typescript 人工智能

便捷、高并发、高可用 揭秘搭建校园云平台的理由

青椒云云电脑

云平台

WorkPlus打造企业移动门户,实现高效协作与便捷访问

BeeWorks

几分钟搞定Java程序CPU飙升场景

HelloGeek

Java Docker 容器 解决方案

低代码平台:解决开发中的重复“造轮子”

树上有只程序猿

低代码 造轮子

新老用户看过来~最实用的 Milvus 迁移手册来啦!

Zilliz

数据迁移 Milvus Zilliz 向量数据库

语音识别技术:未来人机交互的重要接口

数据堂

科技快讯丨浪潮海岳PaaS平台重磅升级,筑牢企业数字化创新底座

inBuilder低代码平台

WorkPlus局域网聊天软件,打造高效沟通与协作的完美选择

BeeWorks

深势科技基于 Serverless 容器为科研人员打造高效的开发平台

阿里巴巴云原生

阿里云 Serverless Kubernetes 容器 云原生

低代码开发平台的优点和缺点

互联网工科生

低代码 可视化开发 JNPF

语音识别技术的挑战与机遇

数据堂

GitHub超60K的“亿级高并发系统设计手册”被疯传

小小怪下士

Java 程序员 系统设计 高并发

Arrays.asList():使用指南

越长大越悲伤

Java

Last Week in Milvus

Zilliz

非结构化数据 Milvus Zilliz 向量数据库

“昇腾万里•齐聚津门”昇腾AI创新大赛2023 天津区域赛暨第十期“津英汇”活动成功举办

彭飞

ByConity 0.2.0 版本发布

字节跳动开源

数据库 大数据 开源 开源社区 数仓

企业用户需要什么样的私有云

青椒云云电脑

云桌面

英特尔FPGA系列再扩容,打造完美产品矩阵

E科讯

数字矿山:智慧煤矿可视化2D组态系统

2D3D前端可视化开发

组态软件 智慧矿山 2D组态 智慧煤矿 智慧矿井

zone.js由入门到放弃之五——NgZone & ApplicationRef源码分析

OpenTiny社区

前端 angular

云桌面如何助力校园云办公 老师这么说

青椒云云电脑

云桌面

Apache IoTDB v1.2.0/v1.2.1 发布|增加流处理框架、动态模板等新功能

Apache IoTDB

语音识别技术:原理、应用与未来

数据堂

从“作坊模式”到“平台科研”,和鲸聚焦 AI4S 项目全生命周期管理

ModelWhale

AI for Science 可复现性 科研协同 全生命周期 科研

Meta 推出 V-JEPA 2:基于视频的物理推理世界模型_AI&大模型_InfoQ精选文章