
Meta 推出了一款基于视频的新型世界模型,V-JEPA 2,是为提升机器在物理环境中的理解、预测和规划能力。该模型扩展了联合嵌入预测架构(JEPA)框架,并通过视频数据进行训练,以在嵌入空间中预测结果。
该模型的训练分为两个阶段。第一阶段,使用超过一百万小时的视频和一百万张图像进行无动作标签的自监督预训练,让模型能够学习运动、物体动力学和互动模式的表征。第二阶段,使用包含视频和动作序列的 62 小时机器人数据进行微调,此阶段让模型能够做出基于动作条件的预测并支持规划。
一位 Reddit 用户对此方法评论道:
在嵌入空间中进行预测将提高计算效率,也更接近人类的推理方式……这种方法真切地让我感受到了 AGI(人工通用智能),无论这个系统目前的结果如何。
也有用户指出了该方法的局限性。专注于人工智能战略与教育的 Dorian Harris 写道:
AGI 所需的能力要比 V-JEPA 2 的专业化焦点更广泛。这是一项重大但狭窄的突破,AGI 里程碑的说法是过于夸大了。
在机器人应用中,V-JEPA 2 被用于短期和长期的操控任务。举例来说,当给定一个图像形式的目标时,机器人利用该模型模拟可能的动作,并选择那些能使其更接近目标的动作。系统在每一步都使用模型预测控制循环进行重新规划。Meta 报告称,在涉及新物体和新环境的拾取放置任务中,系统成功率在 65% 至 80% 之间。
该模型还在 Something-Something v2、Epic-Kitchens-100 和 Perception Test 等基准上进行了评估。在和轻量级读出器(lightweight readouts)结合使用时,它在运动识别和未来动作预测相关任务上表现优异。
Meta 还发布了三个专注于视频物理推理的新基准:IntPhys 2(测试识别物理上不可能事件的能力)、MVPBench(评估最小变化下的视频问答能力)和 CausalVQA(专注于因果推理和规划)。
Typewise 的首席执行官 David Eberle 指出:
预测和适应动态情况的能力,正是让 AI 智能体在现实世界的客户互动中(而不仅仅是在机器人领域)更具情境感知能力所必需的。
模型权重、代码和数据集可通过 GitHub 和 Hugging Face 获取,社区基准测试也启动了排行榜。
评论