写点什么

谷歌 DeepMind 发布机器人学基础模型 Gemini Robotics On-Device

  • 2025-07-16
    北京
  • 本文字数:1127 字

    阅读完需:约 4 分钟

大小:562.83K时长:03:12
谷歌DeepMind发布机器人学基础模型Gemini Robotics On-Device

谷歌DeepMind推出了Gemini Robotics On-Device,这是一款视觉-语言-行动(VLA)基础模型,旨在在机器人硬件上本地运行。该模型具有低延迟推理能力,并且可以针对特定任务进行微调,只需 50 个演示即可。

 

Gemini Robotics On-Device 是Gemini Robotics家族系列的最新迭代,也是首个可以进行微调的版本。它适用于因低延迟或缺乏网络而需要在机器人硬件上本地运行的应用程序。该模型遵循自然语言指令,并使用视觉来寻找和推理其环境中的对象。DeepMind 在双臂Aloha机器人上训练了该模型,但也在其他几个机器人平台上进行了评估,显示出它能够在新硬件上处理复杂任务。DeepMind 表示:

 

Gemini Robotics On-Device 标志着在使强大的机器人模型更具易用性和适应性方面方面迈出了一步——我们的本地解决方案将帮助机器人社区解决了重要的延迟和连接性挑战。Gemini Robotics SDK 将进一步加速创新,允许开发者根据他们自己的特定需求调整模型。通过我们的可信测试程序注册以获取模型和 SDK 访问权限。随着我们继续探索将 AI 带入物理世界的未来,我们很高兴看到机器人界将使用这些新工具构建什么。

 

今年早些时候,DeepMind 首次宣布了 Gemini Robotics 家族系列。基于谷歌的 Gemini 2.0 LLMs,Gemini Robotics 包括一个用于物理行动的输出模态。除了这些模型,DeepMind 还发布了几个基准测试,包括用于评估机器人安全机制的 ASIMOV 基准测试(ASIMOV Benchmark )和用于测量视觉推理能力的具身推理问答(Embodied Reasoning QA,ERQA)评估数据集。

 

DeepMind 测试了他们的模型快速适应新任务的能力。对于 7 种不同的任务,如准备食物和玩牌,他们对模型进行了最多 100 次演示以进行微调;平均而言,使用他们的模型,机器人成功完成任务的时间超过 60%,击败了“当前最佳的本地 VLA”。然而,Gemini Robotics 模型的离线版本表现更好,接近 80%。

 

在有关Gemini Robotics On-Device的 Hacker News 讨论中,一位用户写道:

 

我在过去几个月里一直在研究 VLAs,我确信它们能成为一个大事件,即它们很可能是大家期待的“机器人技术的 chatgpt 时刻”。多模态 LLMs 已经内置了对图像和文本的大量理解,所以 VLAs 只是常规的 MMLLMs,它们被微调以输出可以馈送到机器人的特定指令序列……精妙之处在于,尽管目前每个人都在关注机器人手臂操纵物体,但没有理由认为这种方法不能应用于其他任何任务。想要一台智能割草机吗?它已经理解了“草坪”、“割草”、“不要破坏路径上的玩具”等,只需要微调一下如何正确操作割草机。

 

Gemini Robotics On-Device 尚未广泛可用,但感兴趣的开发人员可以注册等待名单。网站上还有一个相关模型 Gemini Robotics-ER 的互动演示Gemini Robotics SDK可在 GitHub 上找到。

 

原文链接:

https://www.infoq.com/news/2025/07/google-gemini-robotics/

2025-07-16 10:348720

评论

发布
暂无评论
发现更多内容

OpenLDAP 接入 NineData SSO

NineData

SSO openldap 单点登录 NineData phpLDAPadmin

京东app商品详情数据接口

tbapi

京东 京东商品详情接口 京东API 京东APP商品详情接口

2024太阳能产品展|2024山西国际供热采暖展会

秋硕展览

Java 构造函数与修饰符详解:初始化对象与控制权限

小万哥

Java 程序人生 编程语言 软件工程 后端开发

数据价值在线化,TiDB 在企查查数据中台的应用

编程猫

万字干货-京东零售数据资产能力升级与实践

京东零售技术

大数据 数据资产

SDWAN组网基于软件,部署灵活且周期短

Geek一起出海

喜报!博睿数据荣获中信银行2023年度优秀服务伙伴奖

博睿数据

全新市场周期推动 LaunchPad 迎新起点, Penpad 成新兴生力军

西柚子

分布式存储技术:总结2023,展望2024

黄岩

分布式存储 zstorage 全闪分布式

文心一言 VS 讯飞星火 VS chatgpt (199)-- 算法导论15.2 1题

福大大架构师每日一题

福大大架构师每日一题

跃迁:从普通到卓越的成长路径

老张

个人成长

大模型+影像:智能手机“上春山”

脑极体

AI

一款高输出电流 PWM 转换器

芯动大师

员工活动 | 并肩携手,温暖前行

MatrixOrigin

数据库 云原生 分布式,

喜报,喜报!MO 荣获六个年度大奖!

MatrixOrigin

数据库 云原生 分布式,

博睿数据率先发布HarmonyOS NEXT系统的应用异常观测SDK

博睿数据

4家券商综合评级上升,1月券商App终端业务体验评测报告发布

博睿数据

龙年大吉,新的一年开启你的职业飞跃之旅

亚马逊云科技 (Amazon Web Services)

架构师 亚马逊云科技 培训与认证

2024年工业展|2024越南国际工业技术装备展会

秋硕展览

新型储能|储能电站|2024山西国际储能产业展会

秋硕展览

《数字化运维路线图》第四部分-数字化运维转型场景 震撼发布!

博睿数据

2024年中国(北京)国际智能锁产品展会

秋硕展览

链接Web3和公链的中间件Smart Layer (SLN)是什么

币离海

strk SLN pixel Smart Layer

80% 的学校还在给新生上 C 语言,是它们 OUT 了吗?

算法的秘密

代码人生

这份攻略帮助你分分钟构建出“幻兽帕鲁游戏”极致体验

极狐GitLab

谷歌DeepMind发布机器人学基础模型Gemini Robotics On-Device_Google_Anthony Alford_InfoQ精选文章