NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

谷歌发布史上最大 AI 模型 PaLM-E:5620 亿参数,无需特殊训练可操纵机器人

  • 2023-03-09
    北京
  • 本文字数:1938 字

    阅读完需:约 6 分钟

谷歌发布史上最大AI模型 PaLM-E:5620 亿参数,无需特殊训练可操纵机器人

本周一,来自谷歌和柏林工业大学的 AI 研究团队推出了 PaLM-E,这是一种多模态视觉语言模型(VLM),具有 5620 亿个参数,集成了可控制机器人的视觉和语言能力。据称这是有史以来规模最大的视觉语言模型,能够执行各种任务且无需重新训练,这套与 ChatGPT 有几分相似的 AI 模型新增视觉功能。


根据谷歌的介绍,只要给出一条高级命令,比如“把抽屉里的脆片拿给我”,PaLM-E 就能为机械手臂平台(由 Google Robotics 开发)生成相应的操纵指令。



在演示视频中,由 PaLM-E 控制的机械臂正伸手取一袋薯片。


PaLM-E 的基本工作原理,是分析机器人摄像头采集到的数据,且无需对场景表示做任何预处理。该模型消除了对数据预处理和标注的需求,有望将机器人的自主水平提升至新的层次。


谷歌称,该模型还具有一定弹性,能够对周边环境做出反应。例如,PaLM-E 模型能够引导机器人从厨房中取出袋装薯片,并通过将 PaLM-E 集成至控制回路当中,能够应对执行期间可能发生的意外状况。此外,同一套 PaLM-E 模型能成功通过复杂的指令序列实现了对机器人的自主控制,以往这类任务只能由人类引导完成。


谷歌在研究论文中解释了 PaLM-E 如何将指令转化为行动:我们展示了 PaLM-E 面对具有挑战性的多样移动操作中,表现出的实际性能。我们主要参考 Ahn 等人的设置方案(2022 年),机器人需要根据人类的指令规划一系列导航与操作动作。例如,给出指令“我把饮料弄洒了,能给我拿东西清理一下吗?”,机器人就会规划一连串“1. 找清洁棉;2. 捡起清洁棉;3. 递给用户;4. 放下清洁棉”的行动。受任务启发,我们设计出三个用例来测试 PaLM-E 的具身推理能力,具体包括可供性预测、故障检测和长期规划。低级策略来自 RT-1(Brohan 等人,2022 年),这是一套采用 RGB 图像加自然语言指令、能够向末端执行器输出控制命令的 transformer 模型。

PaLM-E 到底是个啥?


PaLM-E 是一款下一令牌预测器,取名“PaLM-E”是因为其基于谷歌的 PaLM 大语言模型(LLM,与 ChatGPT 的底层技术相似)。谷歌进一步向其中添加了感官信息和机器人控制功能,帮助 PaLM 实现了“具身化”。


由于基于语言模型,PaLM-E 会进行连续观察,例如接收图像或传感器数据,并将其编码为一系列与语言令牌大小相同的向量。如此一来,模型就能继续以处理语言的方式“理解”感官信息。


除了 RT-1 机器人 transformer 之外,PaLM-E 还借鉴了谷歌之前在 ViT-22B 上的经验积累——今年 2 月发布的视觉 transformer 模型。ViT-22B 已经接受过各种视觉任务训练,包括图像分类、对象检测、语义分割和图像描述。


Google Robotics 并不是唯一尝试使用神经网络进行机器人控制的研究小组。这项特殊工作与微软最近发布的《ChatGPT for Robotics》论文有相通之处,该文章也尝试以类似方式将视觉数据同大语言模型相结合,探索对机器人进行控制。


除了机器人技术之外,谷歌研究人员还观察到其他一些有趣的效果,其明显来自 PaLM-E 的大语言模型核心。首先,它表现出了“正迁移”,又称助长式迁移,意味着它能把一项任务中学到的知识和技能迁移至另一项任务,而且与单任务机器人模型相比具有“明显更高的性能水平”。

谷歌称正在探索 PaLM-E 模型更多应用场景


此外,研究人员还观察到模型规模有越来越大的趋势:“语言模型越大,在视觉语言和机器人任务训练时就越能保持住这种语言能力。从数量上讲,5620 亿参数的 PaLM-E 模型几乎保留了全部的语言能力。”



在另一不同领域,同一套 PaLM-E 模型能够实时控制机器人。在此之前,机器人还需要人工引导才能完成很长的操作任务(interactive-language.github.io),但现在 PaLM-E 已经能够自主学习这些任务。



谷歌称,“PaLM-E 是迄今为止已公开的最大视觉语言模型。我们观察到,尽管只接受了单图像提示训练,但 PaLM-E 仍然掌握了多模态思维推理和多图像推理等新能力。虽然不是我们的工作重点,PaLM-E 在 OK-VQA 基准测试上创下新的同类最佳性能”。


研究人员宣称,PaLM-E 还展现出随机应变的能力,例如尽管只接受过单图像提示训练,仍可实现多模态思维链推理(允许模型对包含语言和视觉信息在内的一系列输入进行分析)和多图像推理(同时使用多张输入图像进行推理或预测)。从这个角度看,随着深度学习模型变得越来越复杂,PaLM-E 似乎正带给我们更多惊喜。


谷歌研究人员还计划探索 PaLM-E 模型在现实场景中的更多应用,例如家庭自动化或工业机器人。他们希望 PaLM-E 能够启发出更多关于多模态推理和具身化 AI 的研究。


如今“多模态”已经成为新的流行语。相信随着企业着力研发具备类人常规任务执行能力的人工通用智能(AGI),多模态的大名也将越来越多为人们所听闻。


参考链接:

https://arstechnica.com/information-technology/2023/03/embodied-ai-googles-palm-e-allows-robot-control-with-natural-commands/

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-03-09 12:5910276
用户头像
李冬梅 加V:busulishang4668

发布了 814 篇内容, 共 381.9 次阅读, 收获喜欢 1002 次。

关注

评论

发布
暂无评论
发现更多内容

用 LangChain 搭建基于 Notion 文档的 RAG 应用

Zilliz

Milvus Zilliz AIGC langchain rag

超赞!让vue开发效率翻倍的工具分享

秃头小帅oi

Vue 前端

[开源更新]企业级身份管理和访问管理系统、为数字身份安全赋能

小狗围观科幻

只需两步生成自己的数字人形象!

青否数字人

KubeBlocks与OceanBase完成产品兼容互认,可以使用KubeBlocks管理你的OceanBase集群啦!

小猿姐

云边协同的RTC如何助力即构全球实时互动业务实践

ZEGO即构

边缘计算 实时音视频 MSDN 云边协同 音视频质量

软件测试/人工智能|教你轻松掌握Python输入与输出

霍格沃兹测试开发学社

要做职业规划么?我的三个机遇以及一个坚持

非晓为骁

个人成长 职业规划 坚持 目标 工作思考

2023~2024第三届瑞云渲染3d创造大赛报名方法

Renderbus瑞云渲染农场

云渲染 渲染农场 云渲染平台 3d渲染比赛

如何解决在使用虾皮Shopee店铺详情API接口时遇到的问题?

技术冰糖葫芦

API 文档

“降本增效”才是选择低代码开发的主旋律

互联网工科生

软件开发 低代码开发 JNPF

屏幕截图工具 Snagit mac 2023.2.4中文版

iMac小白

WPF应用开发之附件管理

快乐非自愿限量之名

开发者 微服务附件 开源WPF项目

飞书深诺接口自动化测试落地实战

飞书深诺技术团队

质量 AIGC #人工智能

Unity3D 导出的apk进行混淆加固、保护与优化原理(防止反编译)

软件测试/人工智能|PyCharm常用快捷键指南

霍格沃兹测试开发学社

整车级虚拟标定:降本增效

DevOps和数字孪生

汽车产业 虚拟汽车

C# 泛型编译特性对性能的影响

快乐非自愿限量之名

c 编程语言 编译

滴滴遭遇重击:12小时内损失千万订单量与超4亿成交额,背后有何启示?

EquatorCoco

滴滴 崩溃分析 滴滴出行

数仓实践丨常量标量子查询做全连接导致整体慢

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 华为云GaussDB(DWS)

如何有效的进行 E2E

优测云服务平台

测试 测试技术

企业怎样用数字人实现降本增效?

青否数字人

Ableton Live 12 for Mac(音乐制作工具)激活版

iMac小白

虾皮Shopee店铺详情API接口返回的数据包括哪些信息?

技术冰糖葫芦

API 开发

人工智能的技术研究与安全问题的深入讨论

不在线第一只蜗牛

人工智能 安全 信息安全

和鲸科技与国科环宇建立战略合作伙伴关系,以软硬件一体化解决方案促进科技创新

ModelWhale

软件 服务器 算力 大模型 计算平台

获取体育比分、赛事直播源的途径,以及数据API接口的应用

软件开发-梦幻运营部

Reallusion Cartoon Animator for Mac(2D动画设计制作软件) v4.51.3511.1完美激活版

mac

苹果mac Windows软件 Reallusion 2D动画设计制作软件

井然有序 | AIRIOT智能安防系统解决方案

AIRIOT

物联网 智能安防

第16届中国R会议暨2023X-AGI大会开幕,和鲸科技分享ModelOps在数据科学平台中的实践与应用

ModelWhale

R语言 数据科学 算法模型 ModelOps 计算平台

用数字人进行直播带货的详细教程!

青否数字人

谷歌发布史上最大AI模型 PaLM-E:5620 亿参数,无需特殊训练可操纵机器人_AI&大模型_Benj Edwards_InfoQ精选文章