
谷歌DeepMind推出了Gemini Robotics On-Device,这是一款视觉-语言-行动(VLA)基础模型,旨在在机器人硬件上本地运行。该模型具有低延迟推理能力,并且可以针对特定任务进行微调,只需 50 个演示即可。
Gemini Robotics On-Device 是Gemini Robotics家族系列的最新迭代,也是首个可以进行微调的版本。它适用于因低延迟或缺乏网络而需要在机器人硬件上本地运行的应用程序。该模型遵循自然语言指令,并使用视觉来寻找和推理其环境中的对象。DeepMind 在双臂Aloha机器人上训练了该模型,但也在其他几个机器人平台上进行了评估,显示出它能够在新硬件上处理复杂任务。DeepMind 表示:
Gemini Robotics On-Device 标志着在使强大的机器人模型更具易用性和适应性方面方面迈出了一步——我们的本地解决方案将帮助机器人社区解决了重要的延迟和连接性挑战。Gemini Robotics SDK 将进一步加速创新,允许开发者根据他们自己的特定需求调整模型。通过我们的可信测试程序注册以获取模型和 SDK 访问权限。随着我们继续探索将 AI 带入物理世界的未来,我们很高兴看到机器人界将使用这些新工具构建什么。
今年早些时候,DeepMind 首次宣布了 Gemini Robotics 家族系列。基于谷歌的 Gemini 2.0 LLMs,Gemini Robotics 包括一个用于物理行动的输出模态。除了这些模型,DeepMind 还发布了几个基准测试,包括用于评估机器人安全机制的 ASIMOV 基准测试(ASIMOV Benchmark )和用于测量视觉推理能力的具身推理问答(Embodied Reasoning QA,ERQA)评估数据集。
DeepMind 测试了他们的模型快速适应新任务的能力。对于 7 种不同的任务,如准备食物和玩牌,他们对模型进行了最多 100 次演示以进行微调;平均而言,使用他们的模型,机器人成功完成任务的时间超过 60%,击败了“当前最佳的本地 VLA”。然而,Gemini Robotics 模型的离线版本表现更好,接近 80%。
在有关Gemini Robotics On-Device的 Hacker News 讨论中,一位用户写道:
我在过去几个月里一直在研究 VLAs,我确信它们能成为一个大事件,即它们很可能是大家期待的“机器人技术的 chatgpt 时刻”。多模态 LLMs 已经内置了对图像和文本的大量理解,所以 VLAs 只是常规的 MMLLMs,它们被微调以输出可以馈送到机器人的特定指令序列……精妙之处在于,尽管目前每个人都在关注机器人手臂操纵物体,但没有理由认为这种方法不能应用于其他任何任务。想要一台智能割草机吗?它已经理解了“草坪”、“割草”、“不要破坏路径上的玩具”等,只需要微调一下如何正确操作割草机。
Gemini Robotics On-Device 尚未广泛可用,但感兴趣的开发人员可以注册等待名单。网站上还有一个相关模型 Gemini Robotics-ER 的互动演示。Gemini Robotics SDK可在 GitHub 上找到。
原文链接:
评论