2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

Meta 推出 V-JEPA 2:基于视频的物理推理世界模型

作者:Robert Krzaczyński

  • 2025-06-17
    北京
  • 本文字数:853 字

    阅读完需:约 3 分钟

大小:419.28K时长:02:23
Meta 推出 V-JEPA 2:基于视频的物理推理世界模型

Meta 推出了一款基于视频的新型世界模型,V-JEPA 2,是为提升机器在物理环境中的理解、预测和规划能力。该模型扩展了联合嵌入预测架构(JEPA)框架,并通过视频数据进行训练,以在嵌入空间中预测结果。

 

该模型的训练分为两个阶段。第一阶段,使用超过一百万小时的视频和一百万张图像进行无动作标签的自监督预训练,让模型能够学习运动、物体动力学和互动模式的表征。第二阶段,使用包含视频和动作序列的 62 小时机器人数据进行微调,此阶段让模型能够做出基于动作条件的预测并支持规划。

 

一位 Reddit 用户对此方法评论道:


在嵌入空间中进行预测将提高计算效率,也更接近人类的推理方式……这种方法真切地让我感受到了 AGI(人工通用智能),无论这个系统目前的结果如何。

 

也有用户指出了该方法的局限性。专注于人工智能战略与教育的 Dorian Harris 写道


AGI 所需的能力要比 V-JEPA 2 的专业化焦点更广泛。这是一项重大但狭窄的突破,AGI 里程碑的说法是过于夸大了。

 

在机器人应用中,V-JEPA 2 被用于短期和长期的操控任务。举例来说,当给定一个图像形式的目标时,机器人利用该模型模拟可能的动作,并选择那些能使其更接近目标的动作。系统在每一步都使用模型预测控制循环进行重新规划。Meta 报告称,在涉及新物体和新环境的拾取放置任务中,系统成功率在 65% 至 80% 之间。

 

该模型还在 Something-Something v2Epic-Kitchens-100Perception Test 等基准上进行了评估。在和轻量级读出器(lightweight readouts)结合使用时,它在运动识别和未来动作预测相关任务上表现优异。

 

Meta 还发布了三个专注于视频物理推理的新基准:IntPhys 2(测试识别物理上不可能事件的能力)、MVPBench(评估最小变化下的视频问答能力)和 CausalVQA(专注于因果推理和规划)。

 

Typewise 的首席执行官 David Eberle 指出


预测和适应动态情况的能力,正是让 AI 智能体在现实世界的客户互动中(而不仅仅是在机器人领域)更具情境感知能力所必需的。

 

模型权重、代码和数据集可通过 GitHubHugging Face 获取,社区基准测试也启动了排行榜

2025-06-17 17:001

评论

发布
暂无评论

全球案例 | Infobip :这家估值十亿美元的公司像初创企业一样规模化发展,像大型企业一样标准化

Atlassian

DevOps Agile Atlassian Jira ITSM

DCache 分布式存储系统|Set, ZSet 缓存模块的创建与使用

TARS基金会

nosql 缓存 分布式 MySQL 高可用 TARS

filecoin矿机系统开发|filecoin矿机软件APP开发

系统开发

如何评估需求优先级?

石云升

项目管理 28天写作 职场经验 管理经验 3月日更

霸榜Git!2021年阿里巴巴Java面试权威指南(全彩版)

Java 程序员 面试 架构师

filecoin云算力软件开发|filecoin云算力APP系统开发

系统开发

低代码/无代码,作为IT开发界的“新英雄”它究竟有何神技?

优秀

低代码 无代码开发

直击面试!阿里技术官手码12W字面试小册在Github上爆火

Java架构之路

Java 程序员 架构 面试 编程语言

php 再上热搜!swoole 创始人投出反对票,质疑 php 协程最新提案

薇薇

php 编程 新特性 php扩展

收藏!这些IDE使用技巧,你都知道吗

xcbeyond

IDEA 技巧 3月日更

万象:百度的海量多媒体信息处理系统

百度Geek说

大数据 搜索引擎 百度 后端 #富媒体#

霸榜Git!2021年阿里巴巴Java面试权威指南(泰山版)

Java架构之路

Java 程序员 架构 面试 编程语言

寻找被遗忘的勇气(十八)

Changing Lin

3月日更

科技进化的终点,与荣耀全场景的起点

脑极体

StarRocks在中移物联网PGW实时会话业务领域的应用

StarRocks

大数据 数据分析 物联网 IoT OLAP

发布两小时,霸榜GitHub!Spring Boot实战文档

Java 编程 程序员 架构师

图解垃圾算法,No,捡垃圾算法

叫练

GC算法 引用计数法 标记清除法

filecoin挖矿软件开发|filecoin挖矿APP系统开发

系统开发

"无密码时代"已经来临!

龙归科技

身份认证

朱嘉明:比特币开创人类新型财富实验

CECBC

数字货币

炸裂,IBM系统架构师居然把自己15年Java经验整合成一本小说?

Java架构师迁哥

uni-app跨端开发H5、小程序、IOS、Android(二):开发工具HBuilderX使用技巧

黑马腾云

微信小程序 uni-app App 3月日更 Hbuilderx

以数字人民币为契机 推动人民币国际化进程

CECBC

金融

一周信创舆情观察(3.8~3.14)

统小信uos

趋势预测:2021年五大流行的编程语言

薇薇

Java c php JavaScript Python PEP

打卡学习VBA和PYTHON week01

小怪兽

IT蜗壳教学

2021年新兴的十大区块链技术趋势

CECBC

数字技术

全凭阿里大牛总结的Java面试笔记,首战成功拿蚂蚁offer

Java架构之路

Java 程序员 架构 面试 编程语言

声网Agora发布创业支持计划:聚合50+合作伙伴、11项资源扶持创业者

ToB行业头条

声网 Agora

epoll源码分析以及在Redis中的实现

Linux服务器开发

redis 后端 epoll web服务器 Linux服务器开发

JDBC—往MySQL中写入Blob数据时,出现错误:com.mysql.jdbc.PacketTooBigException: Packet for query is too large (5724349 > 1048576)

打工人!

Java MySQL JDBC Blob

Meta 推出 V-JEPA 2:基于视频的物理推理世界模型_AI&大模型_InfoQ精选文章