写点什么

Physical Intelligence 推出机器人基础模型 Pi-Zero

  • 2024-12-25
    北京
  • 本文字数:1248 字

    阅读完需:约 4 分钟

大小:599.42K时长:03:24
Physical Intelligence 推出机器人基础模型 Pi-Zero

Physical Intelligence 最近宣布推出 π0(pi-zero),这是一款用于机器人的通用 AI 基础模型。Pi-zero 基于预训练的视觉语言模型(VLM),在五项机器人任务的评估中优于其他基线模型。

 

Pi-zero 基于 PaliGemma VLM,然后使用从执行 68 项任务的 7 个不同机器人收集的自定义数据集以及 Open X-Embodiment 数据集对其进行进一步训练。生成的基础模型可以接受自然语言命令并“以基本熟练程度”执行任务。Physical Intelligence 的研究人员将 pi-zero 的性能与两个基线模型 OpenVLA 和 Octo 做了对比,比较了五项任务,包括折叠衣物和整理桌子;pi-zero 比基线模型取得了“巨大的进步”。根据 Physical Intelligence 的说法:


机器人基础模型研究的前沿包括长远推理和规划、自主自我改进、稳健性和安全性。我们预计明年所有这些方向都会取得重大进展,而目前的初步结果为机器人基础模型的未来描绘了一幅充满希望的图景:高度强大的通用策略,继承了互联网规模预训练的语义理解,整合了来自许多不同任务和机器人平台的数据,并实现了前所未有的灵活性和物理能力。


Pi-zero 的架构灵感来自 Transfusion,后者是 Meta 和 Waymo 创建的模型,可对代表离散和连续数据的 token 进行操作。就 pi-zero 而言,该模型有一个独特的模块来处理机器人特定的操作 I/O,研究人员称之为“动作专家”。该模型的输入是视觉图像、机器人关节角度和语言命令的组合;输出是一系列机器人动作 token。

 

对于一些复杂的任务,人类操作员的语言命令首先被输入到高级 VLM 中,后者将其分解为一系列更简单的任务,就像 SayCan 等模型所做的那样。研究人员发现,这种方案提高了摆桌子等任务的性能。当人类操作员给机器人一系列更简单的命令时,他们也发现了类似的改进。

 

Physical Intelligence 联合创始人 Karol Hausman 在 X 上回答了关于该模型的几个问题。他证实他们的演示视频不是脚本或遥控的。当被问及他的团队为何使用折叠衣物来评估他们的模型时,他说:

有很多原因可以说明为什么折叠衣物是一项好任务:

- 如果这项任务做得好,每个人都能看得出来

- 很容易重置(将衣服扔回篮子里)

- 时间可以任意长(连续多个物品)

- 很容易生成多样化的数据(许多衣物)


Andrew Ng 的 The Batch 新闻通讯讨论了 pi-zero,他说:

其中一名团队成员将 π0 视为机器人技术领域的 GPT-1——这是一个时代的开始。尽管文本数据(大量可用)和机器人数据(难以获得且每个机器人都不同)之间存在显著差异,但看起来大型机器人基础模型的新时代即将到来。

 

其他几家大型企业一直在开发用于机器人技术的多模态基础模型。今年早些时候,InfoQ 报道了 NVIDIA 的 GR00T 模型,该模型经过视频、文本和真实机器人演示等数据进行训练。去年,InfoQ 报道了谷歌的 PaLM-E,这是他们的 PaLM 和 Vision Transformer(ViT)模型的组合,用于控制机器人;以及谷歌 DeepMind 的 Robotics Transformer 2(RT-2),这是一个用于控制机器人的视觉-语言-动作(VLA)AI 模型。

 

原文链接:

Physical Intelligence Unveils Robotics Foundation Model Pi-Zero

2024-12-25 08:009767

评论

发布
暂无评论

2023-01-01:remix-ide是浏览器的ide,官方已经提供地址,但是需要连接外网。如果是内网,需要自己在服务器里搭建remix-ide;另一种方式是用remix-ide的桌面版。这里只讨论

福大大架构师每日一题

云原生 k8s k3s 福大大 remix-ide

校招前端一面经典react面试题(附答案)

beifeng1996

React

vue为什么v-for的优先级比v-if的高?

bb_xiaxia1998

Vue

架构设计模块三作业

附加信息

架构训练营

运维进阶训练营 -W10H

b1a2e1u1u

运维

2022前端二面react面试题(边面边更)

beifeng1996

React

校招前端二面高频vue面试题

bb_xiaxia1998

Vue

React源码分析8-状态更新的优先级机制

flyzz177

React

架构训练营-模块二作业

Sam

架构实战营

从这两道题重新理解,JS的this、作用域、闭包、对象

loveX001

JavaScript

面试官让你说说react状态管理?

beifeng1996

React

【web 开发基础】PHP面向对象中类的继承(61)

迷彩

面向对象 extends PHP基础 类的继承 类的实例化

CleanMyMac2024专业Mac清理软件下载

茶色酒

CleanMyMac2024

从输入URL到渲染的过程中到底发生了什么?

loveX001

JavaScript

从React源码分析看useEffect

flyzz177

React

音与影的魔法红线:双Vivid标准带来的超高清之变

脑极体

模块4

KING

架构训练营模块二作业

gigifrog

架构训练营

高级前端必会手写面试题及答案

helloworld1024fd

JavaScript

高级前端二面手写面试题(边面边更)

helloworld1024fd

JavaScript

OpenTelemetry系列 (五)| OpenTelemetry Java Instrumentation二次开发指南

骑牛上青山

Java 调用链 OpenTelemetry 微服务调用链 agent

CleanMyMac2024一款超好用的Mac清理优化工具

茶色酒

CleanMyMac CleanMyMac X CleanMyMac X2023

校招前端面试题集锦

loveX001

JavaScript

new Vue的时候到底做了什么

bb_xiaxia1998

Vue

能否手写vue3响应式原理-面试进阶

helloworld1024fd

JavaScript

手撕常见JS面试题

helloworld1024fd

JavaScript

React源码分析8-状态更新的优先级机制

flyzz177

React

【JVM故障问题排查心得】「内存诊断系列」Xmx和Xms的大小是小于Docker容器以及Pod的大小的,为啥还是会出现OOMKilled?

码界西柚

jdk JVM 12 月 PK 榜 OOMKilled

针对Web应用的攻击模式

穿过生命散发芬芳

HTTP 1月月更

模块五作业

Ryan

构架

滴滴前端常见面试题

loveX001

JavaScript

Physical Intelligence 推出机器人基础模型 Pi-Zero_机器学习/深度学习_Anthony Alford_InfoQ精选文章