写点什么

谷歌又发两款全新 AI 模型:能指挥机器人整理桌面、折纸,操作异常丝滑

  • 2025-03-13
    北京
  • 本文字数:1058 字

    阅读完需:约 3 分钟

大小:452.93K时长:02:34
谷歌又发两款全新AI模型:能指挥机器人整理桌面、折纸,操作异常丝滑

美国当地时间 3 月 12 日,谷歌 DeepMind 团队宣布推出两款基于 Gemini 2.0 的机器人模型:一个是 Gemini Robotics,这是一个先进的视觉-语言-动作 (VLA) 模型,建立在 Gemini 2.0 的基础上,并增加了物理动作作为新的输出方式,用于直接控制机器人;另一个是 Gemini Robotics-ER,这是一个具有先进空间理解能力的 Gemini 模型,使机器人专家能够利用 Gemini 的具身推理 (ER) 能力运行自己的程序。

 

谷歌在官方博客中称,“在 Google DeepMind,我们在 Gemini 模型如何通过跨文本、图像、音频和视频的多模态推理解决复杂问题方面取得了进展。然而,到目前为止,这些能力主要局限于数字领域。为了使人工智能在物理领域对人类有用和有帮助,它们必须展示‘具身’推理——像人类一样理解和响应我们周围世界的能力——以及安全地采取行动来完成任务。”

 

谷歌 DeepMind 已在 Gemini Robotics 模型方面,和 Apptronik、Agile Robots、Agility Robots、Boston Dynamics 和 Enchanted Tools 等展开合作。

 

谷歌强调,为了对人类有用和有帮助,机器人的人工智能模型需要具备三个主要特质:它们必须具有通用性,这意味着它们能够适应不同的情况;它们必须具有交互性,这意味着它们能够理解指令或环境变化并快速做出反应;它们必须具有灵巧性,这意味着它们可以做人们通常用手和手指可以做的事情,比如小心地操纵物体。

 

具体来讲,这些模型能做什么?

 

DeepMind 发布了一系列演示视频,展示了配备 Gemini Robotics 的机器人如何折叠纸张、完成更精细的抓取动作以及响应语音命令执行其他任务。

 



DeepMind 实验室称,Gemini Robotics 经过训练,可以泛化各种不同机器人硬件的行为,并将机器人可以“看到”的物品与它们可能采取的行动联系起来。

 



谷歌表示:“虽然我们之前的工作在这些领域取得了进展,但 Gemini Robotics 在所有三个轴的性能上都迈出了实质性的一步,使我们更接近真正的通用机器人。”



值得一提的是,谷歌 DeepMind 正在与 Apptronik 合作“打造下一代人形机器人”。它还向“受信任的测试人员”开放了 Gemini Robotics-ER 模型,包括 Agile Robots、Agility Robotics、Boston Dynamics 和 Enchanted Tools。谷歌方面表示:“我们非常专注于打造能够理解物理世界并能够对物理世界采取行动的智能。我们非常高兴能够在多个实施例和许多应用中利用这一点。”

 

参考链接:

https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/?utm_source=keywordsnippet&utm_medium=referral

https://www.theverge.com/news/628021/google-deepmind-gemini-robotics-ai-models

2025-03-13 15:328365
用户头像
李冬梅 加V:busulishang4668

发布了 1092 篇内容, 共 706.0 次阅读, 收获喜欢 1243 次。

关注

评论

发布
暂无评论

软件测试|Python操作Excel制作报表,不要太方便

霍格沃兹测试开发学社

软件测试|一文带你了解Flask框架

霍格沃兹测试开发学社

虚拟机安装Ubuntu16并安装Ros(Kinetic)

Studying_swz

6 月 优质更文活动

android项目问题总结

Studying_swz

6 月 优质更文活动

Sentinel的整体工作流程分析

互联网架构师小马

ChatGPT教我用200行代码写一个简版Vue框架 - OpenTiny

Kagol

vue.js 前端 ChatGPT

软件测试|必须遵循的UI自动化设计军规

霍格沃兹测试开发学社

潮流地标美罗城焕新活力,智图赋能传统商业经典延续|MobTech观察

MobTech袤博科技

头部大模型公司进京赶考,向量数据库成为应考神器

Zilliz

Milvus Zilliz AIGC 向量数据库 zillizcloud

2023-06-09:什么是Redis事务?原理是什么?

福大大架构师每日一题

redis 福大大

什么是无服务器架构技术?

天翼云开发者社区

服务器 架构设计

软件测试|pyecharts绘制NBA球星得分能力对比图

霍格沃兹测试开发学社

2024深圳电子展

AIOTE智博会

电子展

请解释如何实现算法 PERMUTE-BY-SORTING,以处理两个或更多优先级相同的情形。也就是说,即使有两个或更多优先级相同,你的算法也应该产生一个均匀随机排列。

福大大架构师每日一题

福大大 ChatGPT

C语言编程—强制类型转换

芯动大师

C语言 强制类型转换 6 月 优质更文活动

边缘计算简介

天翼云开发者社区

云计算 边缘计算

帮您了解CDN节点如何做到访问加速与安全防护

天翼云开发者社区

云计算 CDN 内容分发网络

软件测试|一文教你flask路由配置

霍格沃兹测试开发学社

软件测试|Python绘图神器——Matplotlib使用教程(一)

霍格沃兹测试开发学社

Java SPI 在 Sentinel 中是如何应用的?

互联网架构师小马

Java sentinel spi

软件测试|码农必会的git操作(一)

霍格沃兹测试开发学社

镭速用心打造,新版本发布,为用户实现更多可能

镭速

一文快速了解微服务架构

穿过生命散发芬芳

微服务 6 月 优质更文活动

STM32读取BH1750光照强度数据打印到串口

DS小龙哥

6 月 优质更文活动

关于GDPR体系文件介绍,介绍GDPR体系文件的内容和意义

镭速

Sentinel 是如何实现资源指标数据统计的

互联网架构师小马

Java sentinel

软件测试|教你轻松解决pip安装下载超时问题

霍格沃兹测试开发学社

pytorch实现前馈神经网络实验(手动实现)

Studying_swz

6 月 优质更文活动

责任链模式在 Sentinel 中的应用

互联网架构师小马

Nop平台为什么是一个独一无二的开源软件开发平台

canonical

开源 低代码 开发平台

谷歌又发两款全新AI模型:能指挥机器人整理桌面、折纸,操作异常丝滑_Google_李冬梅_InfoQ精选文章