Physical Intelligence 推出机器人基础模型 Pi-Zero

Physical Intelligence 最近宣布推出 π0（pi-zero），这是一款用于机器人的通用 AI 基础模型。Pi-zero 基于预训练的视觉语言模型（VLM），在五项机器人任务的评估中优于其他基线模型。

Pi-zero 基于 PaliGemma VLM，然后使用从执行 68 项任务的 7 个不同机器人收集的自定义数据集以及 Open X-Embodiment 数据集对其进行进一步训练。生成的基础模型可以接受自然语言命令并“以基本熟练程度”执行任务。Physical Intelligence 的研究人员将 pi-zero 的性能与两个基线模型 OpenVLA 和 Octo 做了对比，比较了五项任务，包括折叠衣物和整理桌子；pi-zero 比基线模型取得了“巨大的进步”。根据 Physical Intelligence 的说法：

机器人基础模型研究的前沿包括长远推理和规划、自主自我改进、稳健性和安全性。我们预计明年所有这些方向都会取得重大进展，而目前的初步结果为机器人基础模型的未来描绘了一幅充满希望的图景：高度强大的通用策略，继承了互联网规模预训练的语义理解，整合了来自许多不同任务和机器人平台的数据，并实现了前所未有的灵活性和物理能力。

Pi-zero 的架构灵感来自 Transfusion，后者是 Meta 和 Waymo 创建的模型，可对代表离散和连续数据的 token 进行操作。就 pi-zero 而言，该模型有一个独特的模块来处理机器人特定的操作 I/O，研究人员称之为“动作专家”。该模型的输入是视觉图像、机器人关节角度和语言命令的组合；输出是一系列机器人动作 token。

对于一些复杂的任务，人类操作员的语言命令首先被输入到高级 VLM 中，后者将其分解为一系列更简单的任务，就像 SayCan 等模型所做的那样。研究人员发现，这种方案提高了摆桌子等任务的性能。当人类操作员给机器人一系列更简单的命令时，他们也发现了类似的改进。

Physical Intelligence 联合创始人 Karol Hausman 在 X 上回答了关于该模型的几个问题。他证实他们的演示视频不是脚本或遥控的。当被问及他的团队为何使用折叠衣物来评估他们的模型时，他说：

有很多原因可以说明为什么折叠衣物是一项好任务：
- 如果这项任务做得好，每个人都能看得出来
- 很容易重置（将衣服扔回篮子里）
- 时间可以任意长（连续多个物品）
- 很容易生成多样化的数据（许多衣物）

Andrew Ng 的 The Batch 新闻通讯讨论了 pi-zero，他说：

其中一名团队成员将 π0 视为机器人技术领域的 GPT-1——这是一个时代的开始。尽管文本数据（大量可用）和机器人数据（难以获得且每个机器人都不同）之间存在显著差异，但看起来大型机器人基础模型的新时代即将到来。

其他几家大型企业一直在开发用于机器人技术的多模态基础模型。今年早些时候，InfoQ 报道了 NVIDIA 的 GR00T 模型，该模型经过视频、文本和真实机器人演示等数据进行训练。去年，InfoQ 报道了谷歌的 PaLM-E，这是他们的 PaLM 和 Vision Transformer（ViT）模型的组合，用于控制机器人；以及谷歌 DeepMind 的 Robotics Transformer 2（RT-2），这是一个用于控制机器人的视觉-语言-动作（VLA）AI 模型。

原文链接：

Physical Intelligence Unveils Robotics Foundation Model Pi-Zero

创作场景

Physical Intelligence 推出机器人基础模型 Pi-Zero