写点什么

谷歌发布史上最大 AI 模型 PaLM-E:5620 亿参数,无需特殊训练可操纵机器人

  • 2023-03-09
    北京
  • 本文字数:1938 字

    阅读完需:约 6 分钟

谷歌发布史上最大AI模型 PaLM-E:5620 亿参数,无需特殊训练可操纵机器人

本周一,来自谷歌和柏林工业大学的 AI 研究团队推出了 PaLM-E,这是一种多模态视觉语言模型(VLM),具有 5620 亿个参数,集成了可控制机器人的视觉和语言能力。据称这是有史以来规模最大的视觉语言模型,能够执行各种任务且无需重新训练,这套与 ChatGPT 有几分相似的 AI 模型新增视觉功能。


根据谷歌的介绍,只要给出一条高级命令,比如“把抽屉里的脆片拿给我”,PaLM-E 就能为机械手臂平台(由 Google Robotics 开发)生成相应的操纵指令。



在演示视频中,由 PaLM-E 控制的机械臂正伸手取一袋薯片。


PaLM-E 的基本工作原理,是分析机器人摄像头采集到的数据,且无需对场景表示做任何预处理。该模型消除了对数据预处理和标注的需求,有望将机器人的自主水平提升至新的层次。


谷歌称,该模型还具有一定弹性,能够对周边环境做出反应。例如,PaLM-E 模型能够引导机器人从厨房中取出袋装薯片,并通过将 PaLM-E 集成至控制回路当中,能够应对执行期间可能发生的意外状况。此外,同一套 PaLM-E 模型能成功通过复杂的指令序列实现了对机器人的自主控制,以往这类任务只能由人类引导完成。


谷歌在研究论文中解释了 PaLM-E 如何将指令转化为行动:我们展示了 PaLM-E 面对具有挑战性的多样移动操作中,表现出的实际性能。我们主要参考 Ahn 等人的设置方案(2022 年),机器人需要根据人类的指令规划一系列导航与操作动作。例如,给出指令“我把饮料弄洒了,能给我拿东西清理一下吗?”,机器人就会规划一连串“1. 找清洁棉;2. 捡起清洁棉;3. 递给用户;4. 放下清洁棉”的行动。受任务启发,我们设计出三个用例来测试 PaLM-E 的具身推理能力,具体包括可供性预测、故障检测和长期规划。低级策略来自 RT-1(Brohan 等人,2022 年),这是一套采用 RGB 图像加自然语言指令、能够向末端执行器输出控制命令的 transformer 模型。

PaLM-E 到底是个啥?


PaLM-E 是一款下一令牌预测器,取名“PaLM-E”是因为其基于谷歌的 PaLM 大语言模型(LLM,与 ChatGPT 的底层技术相似)。谷歌进一步向其中添加了感官信息和机器人控制功能,帮助 PaLM 实现了“具身化”。


由于基于语言模型,PaLM-E 会进行连续观察,例如接收图像或传感器数据,并将其编码为一系列与语言令牌大小相同的向量。如此一来,模型就能继续以处理语言的方式“理解”感官信息。


除了 RT-1 机器人 transformer 之外,PaLM-E 还借鉴了谷歌之前在 ViT-22B 上的经验积累——今年 2 月发布的视觉 transformer 模型。ViT-22B 已经接受过各种视觉任务训练,包括图像分类、对象检测、语义分割和图像描述。


Google Robotics 并不是唯一尝试使用神经网络进行机器人控制的研究小组。这项特殊工作与微软最近发布的《ChatGPT for Robotics》论文有相通之处,该文章也尝试以类似方式将视觉数据同大语言模型相结合,探索对机器人进行控制。


除了机器人技术之外,谷歌研究人员还观察到其他一些有趣的效果,其明显来自 PaLM-E 的大语言模型核心。首先,它表现出了“正迁移”,又称助长式迁移,意味着它能把一项任务中学到的知识和技能迁移至另一项任务,而且与单任务机器人模型相比具有“明显更高的性能水平”。

谷歌称正在探索 PaLM-E 模型更多应用场景


此外,研究人员还观察到模型规模有越来越大的趋势:“语言模型越大,在视觉语言和机器人任务训练时就越能保持住这种语言能力。从数量上讲,5620 亿参数的 PaLM-E 模型几乎保留了全部的语言能力。”



在另一不同领域,同一套 PaLM-E 模型能够实时控制机器人。在此之前,机器人还需要人工引导才能完成很长的操作任务(interactive-language.github.io),但现在 PaLM-E 已经能够自主学习这些任务。



谷歌称,“PaLM-E 是迄今为止已公开的最大视觉语言模型。我们观察到,尽管只接受了单图像提示训练,但 PaLM-E 仍然掌握了多模态思维推理和多图像推理等新能力。虽然不是我们的工作重点,PaLM-E 在 OK-VQA 基准测试上创下新的同类最佳性能”。


研究人员宣称,PaLM-E 还展现出随机应变的能力,例如尽管只接受过单图像提示训练,仍可实现多模态思维链推理(允许模型对包含语言和视觉信息在内的一系列输入进行分析)和多图像推理(同时使用多张输入图像进行推理或预测)。从这个角度看,随着深度学习模型变得越来越复杂,PaLM-E 似乎正带给我们更多惊喜。


谷歌研究人员还计划探索 PaLM-E 模型在现实场景中的更多应用,例如家庭自动化或工业机器人。他们希望 PaLM-E 能够启发出更多关于多模态推理和具身化 AI 的研究。


如今“多模态”已经成为新的流行语。相信随着企业着力研发具备类人常规任务执行能力的人工通用智能(AGI),多模态的大名也将越来越多为人们所听闻。


参考链接:

https://arstechnica.com/information-technology/2023/03/embodied-ai-googles-palm-e-allows-robot-control-with-natural-commands/

2023-03-09 12:5910919
用户头像
李冬梅 加V:busulishang4668

发布了 913 篇内容, 共 500.6 次阅读, 收获喜欢 1086 次。

关注

评论

发布
暂无评论
发现更多内容

DPDK简介和原理

天翼云开发者社区

DPDK

RPA实施的四大阶段:一步步的详细指南

八爪鱼采集器︱RPA机器人

RPA 自动化 机器人 RPAxAI

【喜讯】数业智能当选“广东省卫生信息网络协会”理事单位

心大陆多智能体

智能体 AI大模型 心理健康 数字心理

豆包模型能力大幅提升,中国版Vision Pro正式发布!今年大模型市场份额第一还会是百度吗?|AI日报

可信AI进展

人工智能

火山引擎VeDI实验平台助推企业量化决策能力升级

字节跳动数据平台

大数据 A/B 测试 对比实验 数字化增长

SDN网络技术在云计算中的应用

天翼云开发者社区

SDN网络

MobPush扩展业务功能设置

MobTech袤博科技

开发者 产品动态

中国电信公布2024年中期业绩!

天翼云开发者社区

云计算 中国电信

2024即刻职达人才生态合作大会于珠海横琴成功召开,共话数智时代人力资源新趋势

新消费日报

利用API返回值实现商品信息的自动化更新

技术冰糖葫芦

API Explorer API 测试 API 策略 pinduoduo API

RPA技术:基本概念和应用场景的全面指南

八爪鱼采集器︱RPA机器人

RPA 自动化 RPAxAI

杭州百腾教育科技 TiDB 6.5 to 7.5 升级记录

TiDB 社区干货传送门

版本升级 7.x 实践

《 黑神话 · 悟空》视觉震撼背后的技术力量:如何用云桌面加速 CG 视觉创作 !

Finovy Cloud

游戏开发 游戏 黑神话悟空 黑神话

国家下达绿色转型目标!电子签章领域未来的发展趋势如何?

Geek_2a38d5

Arbitrum STIP 陷尴尬局面:8500 万美元支出仅换回 1500 万美元收入

TechubNews

国产RPA软件的优势:企业数字化转型中的关键作用详解

八爪鱼采集器︱RPA机器人

RPA 自动化 RPAxAI

这是一款轻量存储黑科技!

天翼云开发者社区

云计算 天翼云 轻量存储

高性能桌面管理系统助力实现国产化生态!

上海锐起科技

生成式AI已融入你的生活和工作了吗?

天津汇柏科技有限公司

人工智能 生成式AI 生成式 AI 应用

如何提高研发效能?思码逸 & 信通院告诉你

思码逸研发效能

团队管理 DevOps #研发效能

离奇问题,网络故障恢复后,无法重连到数据库?

中原银行

Java TCP 容器云 HikariCP 网络故障

IPQ5332 vs. IPQ4019: The Best WiFi Solution for Oil and Gas Industries

wallyslilly

IPQ4019 IPQ5332

公司最大的内卷,偷偷做单元测试

禅道项目管理

项目管理 程序员 软件测试 单元测试 测试人员

热仿真 散热仿真分析公司-CAE软件服务代做外包

Geek_2d6073

亿玛科技:TiDB 6.1.5 升级到 7.5.1 经验分享

TiDB 社区干货传送门

版本升级 7.x 实践

MobPush推送查询

MobTech袤博科技

Java 开发者 产品动态

RPA机器人流程自动化的5个必知关键点

八爪鱼采集器︱RPA机器人

RPA 自动化 RPAxAI

软件测试岗位的经典面试题

老张

软件测试 面试题 职场成长 面试求职

SQLAlchemy 在 Python 中的同步与异步操作及CRUD实现指南

代码忍者

Percona Toolkit 神器全攻略(开发类)

GreatSQL

聊聊TiCDC

TiDB 社区干货传送门

7.x 实践

谷歌发布史上最大AI模型 PaLM-E:5620 亿参数,无需特殊训练可操纵机器人_AI&大模型_Benj Edwards_InfoQ精选文章