写点什么

谷歌又发两款全新 AI 模型:能指挥机器人整理桌面、折纸,操作异常丝滑

  • 2025-03-13
    北京
  • 本文字数:1058 字

    阅读完需:约 3 分钟

大小:452.93K时长:02:34
谷歌又发两款全新AI模型:能指挥机器人整理桌面、折纸,操作异常丝滑

美国当地时间 3 月 12 日,谷歌 DeepMind 团队宣布推出两款基于 Gemini 2.0 的机器人模型:一个是 Gemini Robotics,这是一个先进的视觉-语言-动作 (VLA) 模型,建立在 Gemini 2.0 的基础上,并增加了物理动作作为新的输出方式,用于直接控制机器人;另一个是 Gemini Robotics-ER,这是一个具有先进空间理解能力的 Gemini 模型,使机器人专家能够利用 Gemini 的具身推理 (ER) 能力运行自己的程序。

 

谷歌在官方博客中称,“在 Google DeepMind,我们在 Gemini 模型如何通过跨文本、图像、音频和视频的多模态推理解决复杂问题方面取得了进展。然而,到目前为止,这些能力主要局限于数字领域。为了使人工智能在物理领域对人类有用和有帮助,它们必须展示‘具身’推理——像人类一样理解和响应我们周围世界的能力——以及安全地采取行动来完成任务。”

 

谷歌 DeepMind 已在 Gemini Robotics 模型方面,和 Apptronik、Agile Robots、Agility Robots、Boston Dynamics 和 Enchanted Tools 等展开合作。

 

谷歌强调,为了对人类有用和有帮助,机器人的人工智能模型需要具备三个主要特质:它们必须具有通用性,这意味着它们能够适应不同的情况;它们必须具有交互性,这意味着它们能够理解指令或环境变化并快速做出反应;它们必须具有灵巧性,这意味着它们可以做人们通常用手和手指可以做的事情,比如小心地操纵物体。

 

具体来讲,这些模型能做什么?

 

DeepMind 发布了一系列演示视频,展示了配备 Gemini Robotics 的机器人如何折叠纸张、完成更精细的抓取动作以及响应语音命令执行其他任务。

 



DeepMind 实验室称,Gemini Robotics 经过训练,可以泛化各种不同机器人硬件的行为,并将机器人可以“看到”的物品与它们可能采取的行动联系起来。

 



谷歌表示:“虽然我们之前的工作在这些领域取得了进展,但 Gemini Robotics 在所有三个轴的性能上都迈出了实质性的一步,使我们更接近真正的通用机器人。”



值得一提的是,谷歌 DeepMind 正在与 Apptronik 合作“打造下一代人形机器人”。它还向“受信任的测试人员”开放了 Gemini Robotics-ER 模型,包括 Agile Robots、Agility Robotics、Boston Dynamics 和 Enchanted Tools。谷歌方面表示:“我们非常专注于打造能够理解物理世界并能够对物理世界采取行动的智能。我们非常高兴能够在多个实施例和许多应用中利用这一点。”

 

参考链接:

https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/?utm_source=keywordsnippet&utm_medium=referral

https://www.theverge.com/news/628021/google-deepmind-gemini-robotics-ai-models

2025-03-13 15:328573
用户头像
李冬梅 加V:busulishang4668

发布了 1193 篇内容, 共 816.1 次阅读, 收获喜欢 1305 次。

关注

评论

发布
暂无评论

智能汽车领域的开源软件供应链安全检测工具分享

墨菲安全

idea插件 工具分享 开源安全 墨菲安全 软件供应链

百度智能小程序巡检调度方案演进之路

百度Geek说

企业的文档管理策略

小炮

文档管理

「v2.4」千呼万唤的图形化编排,来了!

Jianmu

持续集成 低代码 开发工具 开源项目 节点编排

YARN Federation技术解析及应用

移动云大数据

YARN

模块二

Geek_2ce415

十一、云原生网络微隔离

穿过生命散发芬芳

5月月更 微隔离

小区适合投放自助洗车机吗?

共享电单车厂家

自助洗车加盟 小区投放自助洗车机

uniapp 如何将输入值转成大写

CRMEB

为什么穷人越穷,富人越富?

大数据梦想家

程序人生

eKuiper 1.5.0发布:实现无缝式工业数据采集+边缘流处理

EMQ映云科技

物联网 IoT emq 开源之夏 5月月更

云原生时代,热门监控工具对比与使用场景分析

云智慧AIOps社区

云原生 监控 Grafana Prometheus 监控宝

2021年证券类APP更新迭代监测专题分析(中)发布

易观分析

证券

PingCAP Clinic 服务:贯穿云上云下的 TiDB 集群诊断服务

PingCAP

深入 HTTP/3(2)|不那么 Boring 的 SSL

SOFAStack

互联网 TLS HTTP3.0 QUIC协议 HTTP API

是开自助洗车店还是传统洗车店好?

共享电单车厂家

自助洗车加盟 开自助洗车店 传统洗车店

数据行业中的建模是什么?

清林情报分析师

数据分析 行业分析 数据建模 业务思维 模型思维

末流985,秋招斩获多家大厂offer 经验分享

大数据梦想家

面经分享 大数据开发

Fastjson官方再次披露高危漏洞,包括rocketmq、jeecg-boot等近15%的github开源项目受影响

墨菲安全

安全 idea插件 Fastjson 依赖漏洞检测 墨菲安全

自助手动洗车设备洗车怎么样?

共享电单车厂家

自助洗车加盟 自助洗车机洗车 自助手动洗车设备

避免惊群以及负载均衡的原理与具体实现

C++后台开发

nginx 负载均衡 后端开发 C++后台开发 惊群

6月月更“粽”头戏,大家一起来参与吧!

InfoQ写作社区官方

热门活动 6月月更

英特尔开源项目推动SYCL标准采用,打破单个厂商封闭生态系统

科技之家

平衡人工智能的性能要求,实现可信AI在银行业务场景的高质量应用

易观分析

人工智能

大数据学习必备 | 推荐几个牛X 的 github 项目,助你事半功倍

大数据梦想家

大数据 学习资料 Github'

如何用Apifox 发送接口请求?

Liam

开发者 测试 后端 开发 Postman

7 款最棒的开源 React UI 库测评 - 特别针对国内使用场景推荐

蒋川

JavaScript react.js 开源 UI 组件库

MBTI 剧透人生,你的天选职业是什么?(免费测)

融云 RongCloud

TiDB 查询优化及调优系列(四)查询执行计划的调整及优化原理

PingCAP

没有店面店铺可以做自助洗车吗?

共享电单车厂家

自助洗车加盟 自助洗车店面

谷歌又发两款全新AI模型:能指挥机器人整理桌面、折纸,操作异常丝滑_Google_李冬梅_InfoQ精选文章