写点什么

Physical Intelligence 推出机器人基础模型 Pi-Zero

  • 2024-12-25
    北京
  • 本文字数:1248 字

    阅读完需:约 4 分钟

大小:599.42K时长:03:24
Physical Intelligence 推出机器人基础模型 Pi-Zero

Physical Intelligence 最近宣布推出 π0(pi-zero),这是一款用于机器人的通用 AI 基础模型。Pi-zero 基于预训练的视觉语言模型(VLM),在五项机器人任务的评估中优于其他基线模型。

 

Pi-zero 基于 PaliGemma VLM,然后使用从执行 68 项任务的 7 个不同机器人收集的自定义数据集以及 Open X-Embodiment 数据集对其进行进一步训练。生成的基础模型可以接受自然语言命令并“以基本熟练程度”执行任务。Physical Intelligence 的研究人员将 pi-zero 的性能与两个基线模型 OpenVLA 和 Octo 做了对比,比较了五项任务,包括折叠衣物和整理桌子;pi-zero 比基线模型取得了“巨大的进步”。根据 Physical Intelligence 的说法:


机器人基础模型研究的前沿包括长远推理和规划、自主自我改进、稳健性和安全性。我们预计明年所有这些方向都会取得重大进展,而目前的初步结果为机器人基础模型的未来描绘了一幅充满希望的图景:高度强大的通用策略,继承了互联网规模预训练的语义理解,整合了来自许多不同任务和机器人平台的数据,并实现了前所未有的灵活性和物理能力。


Pi-zero 的架构灵感来自 Transfusion,后者是 Meta 和 Waymo 创建的模型,可对代表离散和连续数据的 token 进行操作。就 pi-zero 而言,该模型有一个独特的模块来处理机器人特定的操作 I/O,研究人员称之为“动作专家”。该模型的输入是视觉图像、机器人关节角度和语言命令的组合;输出是一系列机器人动作 token。

 

对于一些复杂的任务,人类操作员的语言命令首先被输入到高级 VLM 中,后者将其分解为一系列更简单的任务,就像 SayCan 等模型所做的那样。研究人员发现,这种方案提高了摆桌子等任务的性能。当人类操作员给机器人一系列更简单的命令时,他们也发现了类似的改进。

 

Physical Intelligence 联合创始人 Karol Hausman 在 X 上回答了关于该模型的几个问题。他证实他们的演示视频不是脚本或遥控的。当被问及他的团队为何使用折叠衣物来评估他们的模型时,他说:

有很多原因可以说明为什么折叠衣物是一项好任务:

- 如果这项任务做得好,每个人都能看得出来

- 很容易重置(将衣服扔回篮子里)

- 时间可以任意长(连续多个物品)

- 很容易生成多样化的数据(许多衣物)


Andrew Ng 的 The Batch 新闻通讯讨论了 pi-zero,他说:

其中一名团队成员将 π0 视为机器人技术领域的 GPT-1——这是一个时代的开始。尽管文本数据(大量可用)和机器人数据(难以获得且每个机器人都不同)之间存在显著差异,但看起来大型机器人基础模型的新时代即将到来。

 

其他几家大型企业一直在开发用于机器人技术的多模态基础模型。今年早些时候,InfoQ 报道了 NVIDIA 的 GR00T 模型,该模型经过视频、文本和真实机器人演示等数据进行训练。去年,InfoQ 报道了谷歌的 PaLM-E,这是他们的 PaLM 和 Vision Transformer(ViT)模型的组合,用于控制机器人;以及谷歌 DeepMind 的 Robotics Transformer 2(RT-2),这是一个用于控制机器人的视觉-语言-动作(VLA)AI 模型。

 

原文链接:

Physical Intelligence Unveils Robotics Foundation Model Pi-Zero

2024-12-25 08:0010657

评论

发布
暂无评论

BP神经网络(算法整体思路及原理+手写公式推导)

秃头小苏

7月月更

Android 查看签名

沃德

程序员 7月月更

ORACLE进阶(四)表连接讲解

No Silver Bullet

oracle 7月月更 表连接

OAI 5G NR+USRP B210安装搭建

柒号华仔

5G 7月月更

spark调优(二):UDF减少JOIN和判断

怀瑾握瑜的嘉与嘉

spark 7月月更

三步就能在OpenHarmony中实现车牌识别

OpenHarmony开发者

OpenHarmony

C#/VB.NET 给PDF文档添加文本/图像水印

在下毛毛雨

C# .net PDF 添加水印

redisson bug分析

wgy

Java redis redisson

Spring Cloud源码分析之Eureka篇第三章:EnableDiscoveryClient与EnableEurekaClient的区别(Edgware版本)

程序员欣宸

Java SpringCloud 7月月更

SAP Fiori 应用索引大全工具和 SAP Fiori Tools 的使用介绍

汪子熙

SAP Fiori SAP UI5 ui5 7月月更

beegfs高可用模式探讨

姚华

HPC beegfs 并行文件系统

案例 ①|主机安全建设:3个层级,11大能力的最佳实践

青藤云安全

网络安全 主机安全 网络安全、攻防演练

python变量:引用和可变性

AIWeker

Python python小知识 7月月更

渲大师携手向日葵,远控赋能云渲染及GPU算力服务

Finovy Cloud

渲染 GPU算力

“整洁架构”和商家前端的重构之路

得物技术

架构 前端 重构

A5000 vGPU显示模式切换

姚华

显卡、gpu

提前解锁 2 大直播主题!今天手把手教你如何完成软件包集成?|第 29-30 期

OpenAnolis小助手

云原生 直播 龙蜥大讲堂 SIG 双周会 CSI 与 open-local

Java多线程案例之阻塞队列

未见花闻

7月月更

终于可以一行代码也不用改了!ShardingSphere 原生驱动问世

SphereEx

数据库 ShardingSphere ShardingSphere-JDBC

AddressSanitizer 技术初体验

焱融科技

内存泄露 存储 文件存储 分布式文件存储

用Java写学生登陆认证系统

魏铁锤

Scala 基础 (五):面向对象(上篇)

百思不得小赵

scala 大数据 oop 7月月更

关于静态类型、动态类型、id、instancetype

NewBoy

前端 移动端 iOS 知识体系 7月月更

设计你的安全架构OKR

I

安全架构师 安全架构 企业安全 安全治理

CRMEB 商城系统如何助力营销?

CRMEB

LSF 集群全面监控!浅析 HPC 基于龙蜥操作系统的迁移替代解决方案

OpenAnolis小助手

开源 解决方案 龙蜥操作系统 常青藤开源科技 HPCinsights

如何提高网站权重

源字节1号

微信小程序 软件开发 网站开发

【鲲鹏BoostKit】OminiRuntime ——高效统一的大数据分析Runtime底座

极客天地

《数字经济全景白皮书》保险数字化篇 重磅发布

易观分析

保险数字化

代理和反向代理

沃德

程序员 7月月更

视频化全链路智能上云?一文详解什么是阿里云视频云「智能媒体生产」

阿里云CloudImagine

人工智能 媒体 音视频

Physical Intelligence 推出机器人基础模型 Pi-Zero_机器学习/深度学习_Anthony Alford_InfoQ精选文章