
谷歌 DeepMind 近日推出 Gemini Robotics-ER 1.5,一款专为机器人应用打造的新型具身推理模型。目前,该模型已通过 Google AI Studio 和 Gemini API 以预览版的形式向开发者开放使用。一款用于机器人应用的新型具身推理模型。
Gemini Robotics-ER 1.5 是一款针对空间推理、多步规划以及物理环境执行任务而设计的模型。它能够输出与物体大小、重量及可操作性紧密相关的精准二维坐标点,从而支持诸如“指向你可以拿起的任何物体”等复杂指令。此外,开发者还可灵活调整思考预算,在响应延迟与推理准确性之间找到最佳平衡点。
该模型内置了安全机制,可有效防止生成不安全或物理上不可行的计划,同时会对载荷限制和工作空间约束进行严格检查。虽然它不直接控制机器人执行器,但可以调用外部工具——如视觉—语言-行动(VLA)模型或用户定义的函数来执行命令。Gemini Robotics 采用双模型架构,将推理模型与 VLA 对应模型相结合,从而使不同配置的机器人能够共享高级推理能力。目前,包括 Apptronik 在内的合作伙伴以及超过 60 名测试者正在积极参与该系统的使用与测试工作。
与其他应用于机器人技术的大模型(如 Nvidia VLA)相比,Gemini Robotics-ER 更加注重可控的推理深度与完善的安全机制。以往的系统侧重于直接的感知—行动映射,而 Gemini 引入了推理与执行之间的分离机制,使其能够更加便捷地适配多种不同的硬件平台。
最初的反馈呈现出兴趣与谨慎并存的局面。机器人工程师们特别强调,可调节的推理预算这一特性对于在推理准确性与部署速度之间实现平衡极为关键,尽管有些人担心将推理与驱动分离可能会增加延迟。
人工智能顾问 Sonia Sarao 对该模型的通用性方法给予了高度评价,她指出:
这种通用化的方法有望为机器人技术领域带来一场深刻的变革。显然,大型机器人公司会与谷歌合作,但即使是小型公司也可以直接从谷歌获得人工智能许可,并构建自己的机器人来解决特定问题。
注册会计师 Brian Orlando 将其视为一个真正的转折点,并发表了如下观点:
太神奇了。机器人能够推理、规划和迁移技能。这感觉像是一个真正的转折点。今天可以洗衣服,明天就能成为通用型的全能助手。
Gemini Robotics-ER 1.5 的发布为具身人工智能研究工具集增添了新成员,体现了当前人工智能模型发展的趋势——将推理与执行环节分离,同时还保持了强大的跨平台灵活性,能够适应多种不同的应用场景和硬件平台。DeepMind 报告称,该系统在 15 项机器人基准测试中均取得了最先进的性能表现,并展示了从双臂实验室机器人到仿人机器人的各种平台的兼容性。其设计目标是打造一个统一的、可适应性强的软件堆栈,能够在不同的机器人形态因素上运行,支持从实验室测试到实际部署的过渡。
原文链接:
https://www.infoq.com/news/2025/09/deepmind-gemini-robotics/
评论