2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

谷歌又发两款全新 AI 模型:能指挥机器人整理桌面、折纸,操作异常丝滑

  • 2025-03-13
    北京
  • 本文字数:1058 字

    阅读完需:约 3 分钟

大小:452.93K时长:02:34
谷歌又发两款全新AI模型:能指挥机器人整理桌面、折纸,操作异常丝滑

美国当地时间 3 月 12 日,谷歌 DeepMind 团队宣布推出两款基于 Gemini 2.0 的机器人模型:一个是 Gemini Robotics,这是一个先进的视觉-语言-动作 (VLA) 模型,建立在 Gemini 2.0 的基础上,并增加了物理动作作为新的输出方式,用于直接控制机器人;另一个是 Gemini Robotics-ER,这是一个具有先进空间理解能力的 Gemini 模型,使机器人专家能够利用 Gemini 的具身推理 (ER) 能力运行自己的程序。

 

谷歌在官方博客中称,“在 Google DeepMind,我们在 Gemini 模型如何通过跨文本、图像、音频和视频的多模态推理解决复杂问题方面取得了进展。然而,到目前为止,这些能力主要局限于数字领域。为了使人工智能在物理领域对人类有用和有帮助,它们必须展示‘具身’推理——像人类一样理解和响应我们周围世界的能力——以及安全地采取行动来完成任务。”

 

谷歌 DeepMind 已在 Gemini Robotics 模型方面,和 Apptronik、Agile Robots、Agility Robots、Boston Dynamics 和 Enchanted Tools 等展开合作。

 

谷歌强调,为了对人类有用和有帮助,机器人的人工智能模型需要具备三个主要特质:它们必须具有通用性,这意味着它们能够适应不同的情况;它们必须具有交互性,这意味着它们能够理解指令或环境变化并快速做出反应;它们必须具有灵巧性,这意味着它们可以做人们通常用手和手指可以做的事情,比如小心地操纵物体。

 

具体来讲,这些模型能做什么?

 

DeepMind 发布了一系列演示视频,展示了配备 Gemini Robotics 的机器人如何折叠纸张、完成更精细的抓取动作以及响应语音命令执行其他任务。

 



DeepMind 实验室称,Gemini Robotics 经过训练,可以泛化各种不同机器人硬件的行为,并将机器人可以“看到”的物品与它们可能采取的行动联系起来。

 



谷歌表示:“虽然我们之前的工作在这些领域取得了进展,但 Gemini Robotics 在所有三个轴的性能上都迈出了实质性的一步,使我们更接近真正的通用机器人。”



值得一提的是,谷歌 DeepMind 正在与 Apptronik 合作“打造下一代人形机器人”。它还向“受信任的测试人员”开放了 Gemini Robotics-ER 模型,包括 Agile Robots、Agility Robotics、Boston Dynamics 和 Enchanted Tools。谷歌方面表示:“我们非常专注于打造能够理解物理世界并能够对物理世界采取行动的智能。我们非常高兴能够在多个实施例和许多应用中利用这一点。”

 

参考链接:

https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/?utm_source=keywordsnippet&utm_medium=referral

https://www.theverge.com/news/628021/google-deepmind-gemini-robotics-ai-models

2025-03-13 15:328598
用户头像
李冬梅 加V:busulishang4668

发布了 1206 篇内容, 共 830.3 次阅读, 收获喜欢 1313 次。

关注

评论

发布
暂无评论

闪迪创作者系列闪耀上海国际视觉影像产业展,解锁全场景高效创作新境界

极客天地

天润融通Agent的三大进化,从“开口露馅”到“对答如流”

天润融通

工作中常见的OOM?你了解JVM调优吗?

不在线第一只蜗牛

JVM

浪潮 KWDB 初体验

KaiwuDB

数据库

面试官:如何实现大模型连续对话?

王磊

TapData 出席 2025 MongoDB 用户大会新加坡站,分享构建实时统一数据平台最佳实践

tapdata

mongodb 实时数据平台 实时数据同步 MongoDB用户大会 localSingapore

NineData 社区版 V4.3.0 正式发布!

NineData

DevOps Clickhouse 数据复制 NineData 数据复制工具

谷歌搜索推出 AI 代打电话功能;Hume AI 声音克隆支持说话风格模仿丨日报

声网

KWDB单节点裸机试玩

KaiwuDB

数据库

Web前端入门:JavaScript async & await 的异步任务进化之路

电子尖叫食人鱼

前端 Web

30天Java面试突击,秋招成功上岸Java高开岗!(Java面试题及答案分享)

程序员高级码农

程序员 java‘

基于MCP的一体化人工智能部署架构-从训练、调度到性能反馈的闭环系统设计(附代码)

申公豹

MCP

Spring 拦截器:你的请求休想逃过我的五指山!

京东科技开发者

谷歌云上海代理商:谷歌云如何构建智能Agent,实现业务流程自动化

Cloud Ace 云一

Playwright系列课(2) | 元素定位四大法宝:CSS/文本/XPath/语义化定位实战指南

测吧(北京)科技有限公司

您的企业需要服务台经理吗?-ManageEngine卓豪

ServiceDesk_Plus

ManageEngine卓豪 卓豪

雪豹大模型驱动效率革命 华鼎冷链科技重构餐饮供应链神经网络

科技汇

全能电子书阅读管理工具OmniReader Pro for Mac

晨光熹微

揭秘Chrome DevTools:从原理到自定义调试工具

京东科技开发者

分布式系统高可用性设计 - 监控与日志系统

量贩潮汐·WholesaleTide

分布式

JNPF V6.0震撼上新,解锁低代码新世界

引迈信息

人脸表情[七种表情]数据集(15500张图片已划分、已标注)|适用于YOLO系列深度学习分类检测任务【数据集分享】

申公豹

数据集

Windows系统引入Sudo命令的技术内幕与安全风险分析

qife122

Windows安全 权限提升

天润融通呼入Agent三大能力让客服数据从记录变洞察

天润融通

KWDB时序数据库特性及跨模查询

KaiwuDB

数据库

在AI时代,挖掘用户真实需求比技术实现更重要——知名音乐游戏模拟器需求探索

qife122

用户体验 需求分析

云上AI推理平台全掌握 (4):大模型分发加速

阿里云大数据AI技术

大数据 大模型 推理模型 人工智能、 多模态模型

天润融通Agent全面接管排障任务,智能锁品牌服务效率翻倍提升

天润融通

淘天AB实验分析平台Fluss落地实践:更适合实时OLAP的消息队列

Apache Flink

大数据 flink 流批一体化 Fluss

如何一眼定位SQL的代码来源:一款SQL染色标记的简易MyBatis插件

京东科技开发者

谷歌又发两款全新AI模型:能指挥机器人整理桌面、折纸,操作异常丝滑_Google_李冬梅_InfoQ精选文章