写点什么

谷歌又发两款全新 AI 模型:能指挥机器人整理桌面、折纸,操作异常丝滑

  • 2025-03-13
    北京
  • 本文字数:1058 字

    阅读完需:约 3 分钟

大小:452.93K时长:02:34
谷歌又发两款全新AI模型:能指挥机器人整理桌面、折纸,操作异常丝滑

美国当地时间 3 月 12 日,谷歌 DeepMind 团队宣布推出两款基于 Gemini 2.0 的机器人模型:一个是 Gemini Robotics,这是一个先进的视觉-语言-动作 (VLA) 模型,建立在 Gemini 2.0 的基础上,并增加了物理动作作为新的输出方式,用于直接控制机器人;另一个是 Gemini Robotics-ER,这是一个具有先进空间理解能力的 Gemini 模型,使机器人专家能够利用 Gemini 的具身推理 (ER) 能力运行自己的程序。

 

谷歌在官方博客中称,“在 Google DeepMind,我们在 Gemini 模型如何通过跨文本、图像、音频和视频的多模态推理解决复杂问题方面取得了进展。然而,到目前为止,这些能力主要局限于数字领域。为了使人工智能在物理领域对人类有用和有帮助,它们必须展示‘具身’推理——像人类一样理解和响应我们周围世界的能力——以及安全地采取行动来完成任务。”

 

谷歌 DeepMind 已在 Gemini Robotics 模型方面,和 Apptronik、Agile Robots、Agility Robots、Boston Dynamics 和 Enchanted Tools 等展开合作。

 

谷歌强调,为了对人类有用和有帮助,机器人的人工智能模型需要具备三个主要特质:它们必须具有通用性,这意味着它们能够适应不同的情况;它们必须具有交互性,这意味着它们能够理解指令或环境变化并快速做出反应;它们必须具有灵巧性,这意味着它们可以做人们通常用手和手指可以做的事情,比如小心地操纵物体。

 

具体来讲,这些模型能做什么?

 

DeepMind 发布了一系列演示视频,展示了配备 Gemini Robotics 的机器人如何折叠纸张、完成更精细的抓取动作以及响应语音命令执行其他任务。

 



DeepMind 实验室称,Gemini Robotics 经过训练,可以泛化各种不同机器人硬件的行为,并将机器人可以“看到”的物品与它们可能采取的行动联系起来。

 



谷歌表示:“虽然我们之前的工作在这些领域取得了进展,但 Gemini Robotics 在所有三个轴的性能上都迈出了实质性的一步,使我们更接近真正的通用机器人。”



值得一提的是,谷歌 DeepMind 正在与 Apptronik 合作“打造下一代人形机器人”。它还向“受信任的测试人员”开放了 Gemini Robotics-ER 模型,包括 Agile Robots、Agility Robotics、Boston Dynamics 和 Enchanted Tools。谷歌方面表示:“我们非常专注于打造能够理解物理世界并能够对物理世界采取行动的智能。我们非常高兴能够在多个实施例和许多应用中利用这一点。”

 

参考链接:

https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/?utm_source=keywordsnippet&utm_medium=referral

https://www.theverge.com/news/628021/google-deepmind-gemini-robotics-ai-models

2025-03-13 15:327803
用户头像
李冬梅 加V:busulishang4668

发布了 1039 篇内容, 共 653.4 次阅读, 收获喜欢 1204 次。

关注

评论

发布
暂无评论

干货丨如何使用Redash连接DolphinDB数据源

DolphinDB

数据处理 时序数据库 DolphinDB 数据库开发 redash

从阿里离职后人虚了,头也秃了,就剩这份Java性能优化的PDF了

Java架构追梦

Java 架构 面试 性能优化 并发

几款Java开发者必备常用的工具,准点下班不在话下

华为云开发者联盟

Java 工具 开发

OpenKruise v0.7.0 版本发布:新增周期任务分发控制器

阿里巴巴云原生

阿里云 容器 开发者 运维 云原生

架构师训练营第 1 期第 13 周作业

业哥

盘点2020 | 一个三线程序员的2020年,不卑不亢

沉默王二

程序员 盘点2020 沉默王二

PostgreSQL高可用:多主复制解决方案

PostgreSQLChina

数据库 postgresql 开源

等保数据备份和恢复关键点,这些你该知道!

华为云开发者联盟

数据 容灾 恢复

Tufin联合Cisco,将网络安全自动化进行到底

Geek_448e23

网络安全 自动化管理 云安全

盘点2020 | 微服务架构下该如何技术选型呢?

xcbeyond

微服务 技术选型 盘点2020 选型原则

阿里华为等大厂如何处理数值精度/舍入/溢出问题

Java架构师迁哥

智能微卡口监控系统搭建,智慧平安小区建设解决方案

t13823115967

智慧城市

架构师训练营 1 期 -- 第十三周总结

曾彪彪

极客大学架构师训练营

90分钟10个手写案例,从源码底层给你讲解7种线程池创建方式

996小迁

Java 源码 架构 资料 笔记

盘点2020|多线程的遥感大数据行业产品经历

老壳有点爽

大数据 盘点2020 InSAR

边缘计算和5G:我们从何而来?

VoltDB

云计算 大数据 5G 物联网 边缘计算

forsage以太坊矩阵系统软件开发|forsage以太坊矩阵APP开发

系统开发

扩招1W人,字节跳动内部公开12月份Java岗71道面试题

比伯

Java 编程 架构 面试 程序人生

从面试角度分析LinkedList源码

Java旅途

Java List 集合 linkedlist

架构师训练营第 13 周学习总结

netspecial

极客大学架构师训练营

建议收藏,mybatis插件原理详解

田维常

mybatis

《O2O实战:他们是如何利用互联网的》.pdf

田维常

互联网

架构师 3 期 3 班 -week4- 作业

zbest

作业 week4

女朋友突然问我DNS是个啥....

乱敲代码

计算机网络 DNS DNS服务器

程序员因重复记录日志撑爆ELK被辞退!

Java架构师迁哥

复盘node项目中遇到的13+常见问题和解决方案

徐小夕

Java node.js 大前端 nodejs

DAPP软件系统开发

系统开发

985研究生熬夜23天吃透845页架构宝典 终收割腾讯Java岗offer!再也不用怀疑人生了

比伯

Java 编程 架构 面试 程序人生

警务通APP系统开发,移动警务平台搭建解决方案

t13823115967

智慧城市

微软最强 Python 自动化工具开源了!不用写一行代码!

星安果

Python 开源 自动化 工具 高效率

5张图搞懂Java引用拷贝、深拷贝、浅拷贝

bigsai

Java 浅拷贝和深拷贝

谷歌又发两款全新AI模型:能指挥机器人整理桌面、折纸,操作异常丝滑_Google_李冬梅_InfoQ精选文章