9 月 13 日,2025 Inclusion・外滩大会「开源嘉年华」正在限量报名中! 了解详情
写点什么

谷歌又发两款全新 AI 模型:能指挥机器人整理桌面、折纸,操作异常丝滑

  • 2025-03-13
    北京
  • 本文字数:1058 字

    阅读完需:约 3 分钟

大小:452.93K时长:02:34
谷歌又发两款全新AI模型:能指挥机器人整理桌面、折纸,操作异常丝滑

美国当地时间 3 月 12 日,谷歌 DeepMind 团队宣布推出两款基于 Gemini 2.0 的机器人模型:一个是 Gemini Robotics,这是一个先进的视觉-语言-动作 (VLA) 模型,建立在 Gemini 2.0 的基础上,并增加了物理动作作为新的输出方式,用于直接控制机器人;另一个是 Gemini Robotics-ER,这是一个具有先进空间理解能力的 Gemini 模型,使机器人专家能够利用 Gemini 的具身推理 (ER) 能力运行自己的程序。

 

谷歌在官方博客中称,“在 Google DeepMind,我们在 Gemini 模型如何通过跨文本、图像、音频和视频的多模态推理解决复杂问题方面取得了进展。然而,到目前为止,这些能力主要局限于数字领域。为了使人工智能在物理领域对人类有用和有帮助,它们必须展示‘具身’推理——像人类一样理解和响应我们周围世界的能力——以及安全地采取行动来完成任务。”

 

谷歌 DeepMind 已在 Gemini Robotics 模型方面,和 Apptronik、Agile Robots、Agility Robots、Boston Dynamics 和 Enchanted Tools 等展开合作。

 

谷歌强调,为了对人类有用和有帮助,机器人的人工智能模型需要具备三个主要特质:它们必须具有通用性,这意味着它们能够适应不同的情况;它们必须具有交互性,这意味着它们能够理解指令或环境变化并快速做出反应;它们必须具有灵巧性,这意味着它们可以做人们通常用手和手指可以做的事情,比如小心地操纵物体。

 

具体来讲,这些模型能做什么?

 

DeepMind 发布了一系列演示视频,展示了配备 Gemini Robotics 的机器人如何折叠纸张、完成更精细的抓取动作以及响应语音命令执行其他任务。

 



DeepMind 实验室称,Gemini Robotics 经过训练,可以泛化各种不同机器人硬件的行为,并将机器人可以“看到”的物品与它们可能采取的行动联系起来。

 



谷歌表示:“虽然我们之前的工作在这些领域取得了进展,但 Gemini Robotics 在所有三个轴的性能上都迈出了实质性的一步,使我们更接近真正的通用机器人。”



值得一提的是,谷歌 DeepMind 正在与 Apptronik 合作“打造下一代人形机器人”。它还向“受信任的测试人员”开放了 Gemini Robotics-ER 模型,包括 Agile Robots、Agility Robotics、Boston Dynamics 和 Enchanted Tools。谷歌方面表示:“我们非常专注于打造能够理解物理世界并能够对物理世界采取行动的智能。我们非常高兴能够在多个实施例和许多应用中利用这一点。”

 

参考链接:

https://deepmind.google/discover/blog/gemini-robotics-brings-ai-into-the-physical-world/?utm_source=keywordsnippet&utm_medium=referral

https://www.theverge.com/news/628021/google-deepmind-gemini-robotics-ai-models

2025-03-13 15:328505
用户头像
李冬梅 加V:busulishang4668

发布了 1150 篇内容, 共 770.0 次阅读, 收获喜欢 1282 次。

关注

评论

发布
暂无评论

你有没有领导力?

石云升

领导力 28天写作 职场经验 管理经验 3月日更

oktoken跟单社区系统开发|oktoken跟单社区APP软件开发

系统开发

K8s 原生 Serverless 实践:ASK 与 Knative

阿里巴巴云原生

Serverless 容器 云原生 k8s 存储

设计模式--享元模式

学Java的猪猪侠

浅论指针(二)

Integer

c 指针

API 工具链研发的理论基础 - 导读

李宇飞

工具链 API sdk

Flink SQL 自定义 Source format

shengjk1

flink sql

Flink程序优化及反压机制

大数据技术指南

flink 3月日更

怎样从零开始设计一个数据库

学Java的猪猪侠

缓存为什么会被污染?

escray

redis 学习 极客时间 3月日更 Redis 核心技术与实战

一文搞懂 Flink 处理水印全过程

shengjk1

一文搞懂 Flink Stream Join原理

shengjk1

flink源码 flink join

「产品经理训练营」第八章作业

Sòrγy_じò ぴé

户口?大厂?高薪?生活?聊聊应届程序员的职业选择

流沙

职业发展

关于全球央行数字货币实验的若干认识与思考

CECBC

银行

行业首创,百度自主研发下一代区块链操作系统

CECBC

原子操作

源码解读:KubeVela 是如何将 appfile 转换为 K8s 特定资源对象的

阿里巴巴云原生

容器 云原生 k8s API 应用服务中间件

【操作系统】存储器管理

学Java的猪猪侠

MapReduce的运行机制详解

五分钟学大数据

hadoop 3月日更

浅论指针(一)

Integer

c c++ 指针

引入单点登录,需要考虑哪些问题?

龙归科技

SSO 单点登录

一年增加 1.2w 星,Dapr 能否引领云原生中间件的未来?

阿里巴巴云原生

容器 微服务 云原生 k8s 中间件

操作系统--虚拟存储器概述

学Java的猪猪侠

oktoken对冲合约软件APP开发|oktoken对冲合约系统开发

系统开发

结合 Flink 学习装饰者模式

shengjk1

flink源码 flink源码分析

中国唯一入选 Forrester 领导者象限,阿里云 Serverless 全球领先

阿里巴巴云原生

阿里云 Serverless 容器 开发者 云原生

会声会影最新版:会声会影2021中文版它来啦!

奈奈的杂社

视频剪辑 视频后期 自媒体 视频处理 会声会影

2021面试跳槽宝典:BATJ大厂核心面试解析600题

比伯

Java 架构 面试 程序人生 计算机

关系数据理论是个什么牛马

学Java的猪猪侠

技术中台之DevOps动态表单体系构建

EAWorld

基于docker部署jenkins(一)

李日盛

docker jenkins

谷歌又发两款全新AI模型:能指挥机器人整理桌面、折纸,操作异常丝滑_Google_李冬梅_InfoQ精选文章