2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

谷歌又发两款全新 AI 模型:能指挥机器人整理桌面、折纸,操作异常丝滑

  • 2025-03-13
    北京
  • 本文字数:1058 字

    阅读完需:约 3 分钟

大小:452.93K时长:02:34
谷歌又发两款全新AI模型:能指挥机器人整理桌面、折纸,操作异常丝滑

美国当地时间 3 月 12 日,谷歌 DeepMind 团队宣布推出两款基于 Gemini 2.0 的机器人模型:一个是 Gemini Robotics,这是一个先进的视觉-语言-动作 (VLA) 模型,建立在 Gemini 2.0 的基础上,并增加了物理动作作为新的输出方式,用于直接控制机器人;另一个是 Gemini Robotics-ER,这是一个具有先进空间理解能力的 Gemini 模型,使机器人专家能够利用 Gemini 的具身推理 (ER) 能力运行自己的程序。

 

谷歌在官方博客中称,“在 Google DeepMind,我们在 Gemini 模型如何通过跨文本、图像、音频和视频的多模态推理解决复杂问题方面取得了进展。然而,到目前为止,这些能力主要局限于数字领域。为了使人工智能在物理领域对人类有用和有帮助,它们必须展示‘具身’推理——像人类一样理解和响应我们周围世界的能力——以及安全地采取行动来完成任务。”

 

谷歌 DeepMind 已在 Gemini Robotics 模型方面,和 Apptronik、Agile Robots、Agility Robots、Boston Dynamics 和 Enchanted Tools 等展开合作。

 

谷歌强调,为了对人类有用和有帮助,机器人的人工智能模型需要具备三个主要特质:它们必须具有通用性,这意味着它们能够适应不同的情况;它们必须具有交互性,这意味着它们能够理解指令或环境变化并快速做出反应;它们必须具有灵巧性,这意味着它们可以做人们通常用手和手指可以做的事情,比如小心地操纵物体。

 

具体来讲,这些模型能做什么?

 

DeepMind 发布了一系列演示视频,展示了配备 Gemini Robotics 的机器人如何折叠纸张、完成更精细的抓取动作以及响应语音命令执行其他任务。

 



DeepMind 实验室称,Gemini Robotics 经过训练,可以泛化各种不同机器人硬件的行为,并将机器人可以“看到”的物品与它们可能采取的行动联系起来。

 



谷歌表示:“虽然我们之前的工作在这些领域取得了进展,但 Gemini Robotics 在所有三个轴的性能上都迈出了实质性的一步,使我们更接近真正的通用机器人。”



值得一提的是,谷歌 DeepMind 正在与 Apptronik 合作“打造下一代人形机器人”。它还向“受信任的测试人员”开放了 Gemini Robotics-ER 模型,包括 Agile Robots、Agility Robotics、Boston Dynamics 和 Enchanted Tools。谷歌方面表示:“我们非常专注于打造能够理解物理世界并能够对物理世界采取行动的智能。我们非常高兴能够在多个实施例和许多应用中利用这一点。”

 

参考链接:

https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/?utm_source=keywordsnippet&utm_medium=referral

https://www.theverge.com/news/628021/google-deepmind-gemini-robotics-ai-models

2025-03-13 15:328651
用户头像
李冬梅 加V:busulishang4668

发布了 1229 篇内容, 共 846.2 次阅读, 收获喜欢 1323 次。

关注

评论

发布
暂无评论

火山引擎DataTester分享:A/B实验中常见的8个错误

字节跳动数据平台

架构实战-毕业设计

程序员小张

「架构实战营」

低代码开发——进最热的赛道,啃最硬的骨头

引迈信息

前端 低代码 快速开发 JNPF

车载手势识别技术:未来交通的革命性解决方案

数据堂

Web3和低代码开发:下一代Web应用开发的合作与创新

加入高科技仿生人

前端 Web 低代码

SRE方法论之拥抱风险

不思jo

#运维

Vue3迎来升级,全面助力企业数字化转型

引迈信息

国产游戏引擎,竟然用来搞民航

Openlab_cosmoplat

人工智能 开源

保密+完整+可用+安全,规避代码安全「马奇诺防线」,构建软件供应链整体安全

极狐GitLab

高可用 DevSecOps geo 代码安全 软件供应链安全

如何用一行代码实现监测 OpenAI,大幅提升使用体验

Yestodorrow

可观测性 用户体验 应用性能 ChatGPT

量化交易系统开发——现货策略

薇電13242772558

量化策略

ChatGPT:DevSecOps 落地实践的最后一公里

极狐GitLab

DevOps 云原生 Code Review DevSecOps ChatGPT

【换模型更简单】如何用 Serverless 一键部署 Stable Diffusion?

Serverless Devs

云计算 Serverless AIGC

inBuilder低代码平台开发者分享课丨提交PR的正确姿势

inBuilder低代码平台

基于HTML5智慧产业园三维可视化运维平台

2D3D前端可视化开发

物联网 数字孪生 三维可视化 工业组态 智慧产业园区

实践「容器镜像扫描」,Get 云原生应用的正确打开方式

极狐GitLab

Docker DevOps 云原生 DevSecOps 容器镜像

腾讯安全携手行业伙伴,详解攻击面管理(ASM)技术的“拓客”潜力

极客天地

教你使用Feign替换RestTemplate

融云跨平台 SDK 自动生成技术的探索和实践

融云 RongCloud

sdk 融云 办公效率 通讯 图片资源

在研制带处理器的电子产品时,如何提高抗干扰能力和电磁兼容性?

华秋PCB

电磁 电路 处理器 控制器 抗干扰

火山引擎DataLeap:3步打造“指标管理”体系,幸福里数据中心是这么做的

字节跳动数据平台

大数据 字节跳动 数据管理 指标管理 数据研发

行业分析| 快对讲-融合会议的应用

anyRTC开发者

音视频 视频会议 快对讲 融合会议 电话会议

软件测试丨Python学习笔记之内置库科学计算、日期与时间处理

测试人

Python 软件测试 测试开发

iTubeGo YouTube Downloader 快速下载视频~

真大的脸盆

Mac 视频下载 网页视频下载 Mac 软件 下载视频

让算力不再成为瓶颈,小红书机器学习异构硬件推理优化之道

小红书技术REDtech

机器学习 架构 异构计算

ChatGPT到来个人如何应对

程序员半支烟

人工智能 职业成长

谷歌又发两款全新AI模型:能指挥机器人整理桌面、折纸,操作异常丝滑_Google_李冬梅_InfoQ精选文章