谷歌又发两款全新AI模型：能指挥机器人整理桌面、折纸，操作异常丝滑

美国当地时间 3 月 12 日，谷歌 DeepMind 团队宣布推出两款基于 Gemini 2.0 的机器人模型：一个是 Gemini Robotics，这是一个先进的视觉-语言-动作 (VLA) 模型，建立在 Gemini 2.0 的基础上，并增加了物理动作作为新的输出方式，用于直接控制机器人；另一个是 Gemini Robotics-ER，这是一个具有先进空间理解能力的 Gemini 模型，使机器人专家能够利用 Gemini 的具身推理 (ER) 能力运行自己的程序。

谷歌在官方博客中称，“在 Google DeepMind，我们在 Gemini 模型如何通过跨文本、图像、音频和视频的多模态推理解决复杂问题方面取得了进展。然而，到目前为止，这些能力主要局限于数字领域。为了使人工智能在物理领域对人类有用和有帮助，它们必须展示‘具身’推理——像人类一样理解和响应我们周围世界的能力——以及安全地采取行动来完成任务。”

谷歌 DeepMind 已在 Gemini Robotics 模型方面，和 Apptronik、Agile Robots、Agility Robots、Boston Dynamics 和 Enchanted Tools 等展开合作。

谷歌强调，为了对人类有用和有帮助，机器人的人工智能模型需要具备三个主要特质：它们必须具有通用性，这意味着它们能够适应不同的情况；它们必须具有交互性，这意味着它们能够理解指令或环境变化并快速做出反应；它们必须具有灵巧性，这意味着它们可以做人们通常用手和手指可以做的事情，比如小心地操纵物体。

具体来讲，这些模型能做什么？

DeepMind 发布了一系列演示视频，展示了配备 Gemini Robotics 的机器人如何折叠纸张、完成更精细的抓取动作以及响应语音命令执行其他任务。

DeepMind 实验室称，Gemini Robotics 经过训练，可以泛化各种不同机器人硬件的行为，并将机器人可以“看到”的物品与它们可能采取的行动联系起来。

谷歌表示：“虽然我们之前的工作在这些领域取得了进展，但 Gemini Robotics 在所有三个轴的性能上都迈出了实质性的一步，使我们更接近真正的通用机器人。”

值得一提的是，谷歌 DeepMind 正在与 Apptronik 合作“打造下一代人形机器人”。它还向“受信任的测试人员”开放了 Gemini Robotics-ER 模型，包括 Agile Robots、Agility Robotics、Boston Dynamics 和 Enchanted Tools。谷歌方面表示：“我们非常专注于打造能够理解物理世界并能够对物理世界采取行动的智能。我们非常高兴能够在多个实施例和许多应用中利用这一点。”

参考链接：

https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/?utm_source=keywordsnippet&utm_medium=referral

https://www.theverge.com/news/628021/google-deepmind-gemini-robotics-ai-models

创作场景

谷歌又发两款全新 AI 模型：能指挥机器人整理桌面、折纸，操作异常丝滑