大咖直播-鸿蒙原生开发与智能提效实战!>>> 了解详情
写点什么

Physical Intelligence 推出机器人基础模型 Pi-Zero

  • 2024-12-25
    北京
  • 本文字数:1248 字

    阅读完需:约 4 分钟

大小:599.42K时长:03:24
Physical Intelligence 推出机器人基础模型 Pi-Zero

Physical Intelligence 最近宣布推出 π0(pi-zero),这是一款用于机器人的通用 AI 基础模型。Pi-zero 基于预训练的视觉语言模型(VLM),在五项机器人任务的评估中优于其他基线模型。

 

Pi-zero 基于 PaliGemma VLM,然后使用从执行 68 项任务的 7 个不同机器人收集的自定义数据集以及 Open X-Embodiment 数据集对其进行进一步训练。生成的基础模型可以接受自然语言命令并“以基本熟练程度”执行任务。Physical Intelligence 的研究人员将 pi-zero 的性能与两个基线模型 OpenVLA 和 Octo 做了对比,比较了五项任务,包括折叠衣物和整理桌子;pi-zero 比基线模型取得了“巨大的进步”。根据 Physical Intelligence 的说法:


机器人基础模型研究的前沿包括长远推理和规划、自主自我改进、稳健性和安全性。我们预计明年所有这些方向都会取得重大进展,而目前的初步结果为机器人基础模型的未来描绘了一幅充满希望的图景:高度强大的通用策略,继承了互联网规模预训练的语义理解,整合了来自许多不同任务和机器人平台的数据,并实现了前所未有的灵活性和物理能力。


Pi-zero 的架构灵感来自 Transfusion,后者是 Meta 和 Waymo 创建的模型,可对代表离散和连续数据的 token 进行操作。就 pi-zero 而言,该模型有一个独特的模块来处理机器人特定的操作 I/O,研究人员称之为“动作专家”。该模型的输入是视觉图像、机器人关节角度和语言命令的组合;输出是一系列机器人动作 token。

 

对于一些复杂的任务,人类操作员的语言命令首先被输入到高级 VLM 中,后者将其分解为一系列更简单的任务,就像 SayCan 等模型所做的那样。研究人员发现,这种方案提高了摆桌子等任务的性能。当人类操作员给机器人一系列更简单的命令时,他们也发现了类似的改进。

 

Physical Intelligence 联合创始人 Karol Hausman 在 X 上回答了关于该模型的几个问题。他证实他们的演示视频不是脚本或遥控的。当被问及他的团队为何使用折叠衣物来评估他们的模型时,他说:

有很多原因可以说明为什么折叠衣物是一项好任务:

- 如果这项任务做得好,每个人都能看得出来

- 很容易重置(将衣服扔回篮子里)

- 时间可以任意长(连续多个物品)

- 很容易生成多样化的数据(许多衣物)


Andrew Ng 的 The Batch 新闻通讯讨论了 pi-zero,他说:

其中一名团队成员将 π0 视为机器人技术领域的 GPT-1——这是一个时代的开始。尽管文本数据(大量可用)和机器人数据(难以获得且每个机器人都不同)之间存在显著差异,但看起来大型机器人基础模型的新时代即将到来。

 

其他几家大型企业一直在开发用于机器人技术的多模态基础模型。今年早些时候,InfoQ 报道了 NVIDIA 的 GR00T 模型,该模型经过视频、文本和真实机器人演示等数据进行训练。去年,InfoQ 报道了谷歌的 PaLM-E,这是他们的 PaLM 和 Vision Transformer(ViT)模型的组合,用于控制机器人;以及谷歌 DeepMind 的 Robotics Transformer 2(RT-2),这是一个用于控制机器人的视觉-语言-动作(VLA)AI 模型。

 

原文链接:

Physical Intelligence Unveils Robotics Foundation Model Pi-Zero

2024-12-25 08:0010787

评论

发布
暂无评论

🏆(不要错过!)【CI/CD技术专题】「Jenkins实战系列」(4)总结归纳Jenkins的安装使用和配置流程介绍

码界西柚

maven jenkins git 学习 9月日更

在线JSON转typescript工具

入门小站

工具

面试官让手写队列,差点挂了

bigsai

玩转TypeScript工具类型(中)

有道技术团队

typescript 大前端 网易有道

数据中台建设的9大误区,你中了几条?

博文视点Broadview

如何提高开会效率?

石云升

项目管理 管理 引航计划 内容合集 9月日更

18.理智分析--人类离威胁还相当遥远

Databri_AI

人工智能

架构训练营模块三作业

TIEDPAG

架构训练营 模块三

谈 C++17 里的 Observer 模式

hedzr

c++ 设计模式 Design Patterns c++17 observer pattern

Vue进阶(幺幺叁):element ui 表单验证 this.$refs[formName].validate()问题解决

No Silver Bullet

Vue 9月日更

密码学系列之:bcrypt加密算法详解

程序那些事

算法 加密解密 密码学 程序那些事

GitHub上下载量突破100000+阿里巴巴的这份开源项目如此牛逼

Java 编程 架构 面试 计算机

序列化与反序列化之Protostuff(一)

程序员架构进阶

架构 protobuf 9月日更 序列化与反序列化 protostuff

linux之read命令

入门小站

工具

设定Docker容器日志的大小和轮询规则

耳东@Erdong

Docker log 9月日更

什么是数据驱动

奔向架构师

数据治理 9月日更

固定QPS压测初试

FunTester

性能测试 测试框架 压力测试 QPS FunTester

国足历届世界杯对战记录整理

6979阿强

图算法 GraphScope 2022年卡塔尔世界杯 中国国足

IP地理定位之数据驱动广告矩阵

郑州埃文科技

10行代码集2000张美女图,Python爬虫120例,再上征途

梦想橡皮擦

9月日更

图数据库在社交方向上的应用

6979阿强

社交网络 GraphScope 图数据 图关系

NoSQL-MongoDB

hanaper

人工智能计算中心,助力数字经济发展的算力“虫洞”

脑极体

架构实战营 外包学生管理系统的架构文档

💤 ZZzz💤

架构实战营

Go 编码习惯

baiyutang

Go 语言 9月日更

计算机网络学习笔记 概述

Regan Yue

计算机网络 9月日更 计网

学生管理系统架构设计

一叶知秋

#架构实战营

深入了解现代web浏览器(第四部分)

GKNick

【LeetCode】从根到叶的二进制数之和Java题解

Albert

算法 LeetCode 9月日更

Java字节码技术学习笔记

风翱

Java 9月日更

【Flutter 专题】45 图解矩阵变换 Transform 类 (二)

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 9月日更

Physical Intelligence 推出机器人基础模型 Pi-Zero_机器学习/深度学习_Anthony Alford_InfoQ精选文章