写点什么

谷歌又发两款全新 AI 模型:能指挥机器人整理桌面、折纸,操作异常丝滑

  • 2025-03-13
    北京
  • 本文字数:1058 字

    阅读完需:约 3 分钟

大小:452.93K时长:02:34
谷歌又发两款全新AI模型:能指挥机器人整理桌面、折纸,操作异常丝滑

美国当地时间 3 月 12 日,谷歌 DeepMind 团队宣布推出两款基于 Gemini 2.0 的机器人模型:一个是 Gemini Robotics,这是一个先进的视觉-语言-动作 (VLA) 模型,建立在 Gemini 2.0 的基础上,并增加了物理动作作为新的输出方式,用于直接控制机器人;另一个是 Gemini Robotics-ER,这是一个具有先进空间理解能力的 Gemini 模型,使机器人专家能够利用 Gemini 的具身推理 (ER) 能力运行自己的程序。

 

谷歌在官方博客中称,“在 Google DeepMind,我们在 Gemini 模型如何通过跨文本、图像、音频和视频的多模态推理解决复杂问题方面取得了进展。然而,到目前为止,这些能力主要局限于数字领域。为了使人工智能在物理领域对人类有用和有帮助,它们必须展示‘具身’推理——像人类一样理解和响应我们周围世界的能力——以及安全地采取行动来完成任务。”

 

谷歌 DeepMind 已在 Gemini Robotics 模型方面,和 Apptronik、Agile Robots、Agility Robots、Boston Dynamics 和 Enchanted Tools 等展开合作。

 

谷歌强调,为了对人类有用和有帮助,机器人的人工智能模型需要具备三个主要特质:它们必须具有通用性,这意味着它们能够适应不同的情况;它们必须具有交互性,这意味着它们能够理解指令或环境变化并快速做出反应;它们必须具有灵巧性,这意味着它们可以做人们通常用手和手指可以做的事情,比如小心地操纵物体。

 

具体来讲,这些模型能做什么?

 

DeepMind 发布了一系列演示视频,展示了配备 Gemini Robotics 的机器人如何折叠纸张、完成更精细的抓取动作以及响应语音命令执行其他任务。

 



DeepMind 实验室称,Gemini Robotics 经过训练,可以泛化各种不同机器人硬件的行为,并将机器人可以“看到”的物品与它们可能采取的行动联系起来。

 



谷歌表示:“虽然我们之前的工作在这些领域取得了进展,但 Gemini Robotics 在所有三个轴的性能上都迈出了实质性的一步,使我们更接近真正的通用机器人。”



值得一提的是,谷歌 DeepMind 正在与 Apptronik 合作“打造下一代人形机器人”。它还向“受信任的测试人员”开放了 Gemini Robotics-ER 模型,包括 Agile Robots、Agility Robotics、Boston Dynamics 和 Enchanted Tools。谷歌方面表示:“我们非常专注于打造能够理解物理世界并能够对物理世界采取行动的智能。我们非常高兴能够在多个实施例和许多应用中利用这一点。”

 

参考链接:

https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/?utm_source=keywordsnippet&utm_medium=referral

https://www.theverge.com/news/628021/google-deepmind-gemini-robotics-ai-models

2025-03-13 15:328401
用户头像
李冬梅 加V:busulishang4668

发布了 1114 篇内容, 共 727.5 次阅读, 收获喜欢 1256 次。

关注

评论

发布
暂无评论

开源一夏|OpenHarmony如何选择图片在Image组件上显示(eTS)

坚果

开源 OpenHarmony 8月月更

云原生(十三) | Kubernetes篇之深入Kubernetes(k8s)概念

Lansonli

云原生 k8s 8月月更

SAP 产品增强技术回顾

汪子熙

SaaS SAP 企业级应用 云应用 8月月更

Android进阶(一)Android 发邮件与几种网络请求方式详解

No Silver Bullet

android 8月月更 邮件发送

前端面试 | 必知必会的10道Promise题!

千锋IT教育

数字钱包红海角逐,小程序生态快速引入可助力占领智慧设备入口

FinClip

5 张弹珠图彻底弄清 RxJS 的拉平策略:mergeMap、switchMap、concatMap、exhaustMap

掘金安东尼

前端 RXJS 8月月更

鲲鹏编译调试及原生开发工具基础知识

乌龟哥哥

8月月更

React Redux 组件更新/渲染原理 connect 中的 mapStateToProps

HullQin

CSS JavaScript html 前端 8月月更

vue高频面试题合集(一)附答案

helloworld1024fd

Vue

学习Apache ShardingSphere解析器源码(一)

我不吃六安茶

ANTLR Apache ShardingSphere

OAuth Client默认配置加载

阿提说说

Spring Security OAuth

Linux配置SSH免密码登录(非root账号)

程序员欣宸

SSH 8月月更

开源一夏|5分钟快速为OpenHarmony提交PR(Web)

坚果

开源 OpenHarmony 8月月更

C++运算符重载(三)之递增运算符重载

CtrlX

c c++ 代码 进阶员进阶 8月月更

突破次元壁垒,让身边的玩偶手办在屏幕上动起来!

HarmonyOS SDK

如何解决 “主节点故障恢复的自动化” 问题?

八点半的Bruce.D

vue高频面试题合集(二)附答案

helloworld1024fd

Vue

【LeetCode】重新格式化字符串Java题解

Albert

LeetCode 8月月更

在座的Python爬虫工程师,你敢爬律师事务所站点吗?

梦想橡皮擦

Python 爬虫 8月月更

Spring 全家桶之 Spring Data JPA(一)

小白

8月月更

开源一夏 | 粗暴项目监控,快速上手Spring家族的亲儿子SpringAdmin监控项目

知识浅谈

spring 开源 8月月更

全新FIDE 编译简单评测

Geek_99967b

小程序

数据库 SQL 优化大总结之:百万级数据库优化方案

TimeFriends

8月月更

Open Office XML 格式中的 Style 设计原理

汪子熙

xml 微软 Office 8月月更 openOffice

浅谈Java和SAP ABAP的静态代理和动态代理,以及ABAP面向切面编程的尝试

汪子熙

编程语言 oop aop spring aop 8月月更

运动健康服务场景事件订阅,让应用推送“更懂用户”

HarmonyOS SDK

软件定制开发——企业定制开发app软件的优势

开源直播系统源码

软件开发 直播系统源码 app定制开发 软件定制开发

STM32入门开发 LWIP网络协议栈移植(网卡采用DM9000)

DS小龙哥

8月月更

ABAP应用服务器的HTTP响应状态码(Status Code)

汪子熙

前端开发 HTTP web开发 SAP 8月月更

谷歌又发两款全新AI模型:能指挥机器人整理桌面、折纸,操作异常丝滑_Google_李冬梅_InfoQ精选文章