写点什么

Meta 推出 V-JEPA 2:基于视频的物理推理世界模型

作者:Robert Krzaczyński

  • 2025-06-17
    北京
  • 本文字数:853 字

    阅读完需:约 3 分钟

大小:419.28K时长:02:23
Meta 推出 V-JEPA 2:基于视频的物理推理世界模型

Meta 推出了一款基于视频的新型世界模型,V-JEPA 2,是为提升机器在物理环境中的理解、预测和规划能力。该模型扩展了联合嵌入预测架构(JEPA)框架,并通过视频数据进行训练,以在嵌入空间中预测结果。

 

该模型的训练分为两个阶段。第一阶段,使用超过一百万小时的视频和一百万张图像进行无动作标签的自监督预训练,让模型能够学习运动、物体动力学和互动模式的表征。第二阶段,使用包含视频和动作序列的 62 小时机器人数据进行微调,此阶段让模型能够做出基于动作条件的预测并支持规划。

 

一位 Reddit 用户对此方法评论道:


在嵌入空间中进行预测将提高计算效率,也更接近人类的推理方式……这种方法真切地让我感受到了 AGI(人工通用智能),无论这个系统目前的结果如何。

 

也有用户指出了该方法的局限性。专注于人工智能战略与教育的 Dorian Harris 写道


AGI 所需的能力要比 V-JEPA 2 的专业化焦点更广泛。这是一项重大但狭窄的突破,AGI 里程碑的说法是过于夸大了。

 

在机器人应用中,V-JEPA 2 被用于短期和长期的操控任务。举例来说,当给定一个图像形式的目标时,机器人利用该模型模拟可能的动作,并选择那些能使其更接近目标的动作。系统在每一步都使用模型预测控制循环进行重新规划。Meta 报告称,在涉及新物体和新环境的拾取放置任务中,系统成功率在 65% 至 80% 之间。

 

该模型还在 Something-Something v2Epic-Kitchens-100Perception Test 等基准上进行了评估。在和轻量级读出器(lightweight readouts)结合使用时,它在运动识别和未来动作预测相关任务上表现优异。

 

Meta 还发布了三个专注于视频物理推理的新基准:IntPhys 2(测试识别物理上不可能事件的能力)、MVPBench(评估最小变化下的视频问答能力)和 CausalVQA(专注于因果推理和规划)。

 

Typewise 的首席执行官 David Eberle 指出


预测和适应动态情况的能力,正是让 AI 智能体在现实世界的客户互动中(而不仅仅是在机器人领域)更具情境感知能力所必需的。

 

模型权重、代码和数据集可通过 GitHubHugging Face 获取,社区基准测试也启动了排行榜

2025-06-17 17:004168

评论

发布
暂无评论

(28DW-S8-Day17) 讲故事能力

mtfelix

28天写作 讲故事能力 复述能力

正则表达式.04 - 引用

insight

正则表达式 3月日更

看完张一鸣近十年微博,我总结了这些成长特质

邴越

字节跳动 张一鸣 互联网 职场 抖音

为什么我们开发 San 项目时要用 CLI?

百度开发者中心

Elasticsearch Dynamic Mapping

escray

elastic 七日更 28天写作 死磕Elasticsearch 60天通过Elastic认证考试

《精通比特币》学习笔记(第五章)

棉花糖

区块链 读书笔记 3月日更

CR量化交易APP开发|CR炒币机器人软件系统开发

系统开发

越来越受欢迎的Vue想学么,90后小姐姐今儿来教你

华为云开发者联盟

算法 Vue 大前端 框架 组件

干货分享丨从MPG 线程模型,探讨Go语言的并发程序

华为云开发者联盟

并发 channel goroutines MPG 线程 Go 语言

2021年最新Redis面试题汇总

架构精进之路

redis 七日更 3月日更

网络知识一箩筐:IP地址划分的那些知识点

华为云开发者联盟

网络 虚拟私有云 子网 IP地址

币宽量化交易软件开发|币宽炒币机器人系统APP开发

系统开发

今日随想

Nydia

如何在 Python 中清屏

HoneyMoose

算法喜刷刷

Kylin

算法 3月日更 21天挑战

Python 数据类型

HoneyMoose

MindSpore:基于本地差分隐私的 Bandit 算法

华为云开发者联盟

算法 强化学习 mindspore Bandit 隐私

进步

lenka

3月日更

不一样的软件们——GitHub 热点速览 v.21.10

HelloGitHub

数据库 GitHub 开源

3-8 工作日志

技术骨干

落袋为安——前景理论之确定性

Justin

心理学 28天写作 游戏设计

【动态规划/总结必看】从一道入门题与你分享关于 DP 的分析技巧 ...

宫水三叶的刷题日记

面试 算法 LeetCode

小赌怡情——激励不确定性效应

Justin

心理学 28天写作 游戏设计

《接口测试入门》 学习笔记

有梦想的tester

七日更 3月日更

鼎昂量化交易系统APP开发|鼎昂炒币机器人软件开发

系统开发

币神量化交易系统开发|币神量化交易APP软件开发

系统开发

Node.js 模块化你所需要知道的事

vivo互联网技术

大前端 nodejs Node

事务消息应用场景、实现原理与项目实战(附全部源码)

中间件兴趣圈

RocketMQ 实战 消息中间件 事务消息

Java8 Stream 数据流,大数据量下的性能效率怎么样?

xcbeyond

Java java8 Stream<T> 3月日更

Hadoop 核心-HDFS的API详解

五分钟学大数据

大数据 hadoop hdfs 28天写作 3月日更

Apache Sqoop中最重要的核心概念-导入导出

大数据技术指南

大数据 sqoop 28天写作 3月日更

Meta 推出 V-JEPA 2:基于视频的物理推理世界模型_AI&大模型_InfoQ精选文章