50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

谷歌 DeepMind 发布机器人学基础模型 Gemini Robotics On-Device

  • 2025-07-16
    北京
  • 本文字数:1127 字

    阅读完需:约 4 分钟

大小:562.83K时长:03:12
谷歌DeepMind发布机器人学基础模型Gemini Robotics On-Device

谷歌DeepMind推出了Gemini Robotics On-Device,这是一款视觉-语言-行动(VLA)基础模型,旨在在机器人硬件上本地运行。该模型具有低延迟推理能力,并且可以针对特定任务进行微调,只需 50 个演示即可。

 

Gemini Robotics On-Device 是Gemini Robotics家族系列的最新迭代,也是首个可以进行微调的版本。它适用于因低延迟或缺乏网络而需要在机器人硬件上本地运行的应用程序。该模型遵循自然语言指令,并使用视觉来寻找和推理其环境中的对象。DeepMind 在双臂Aloha机器人上训练了该模型,但也在其他几个机器人平台上进行了评估,显示出它能够在新硬件上处理复杂任务。DeepMind 表示:

 

Gemini Robotics On-Device 标志着在使强大的机器人模型更具易用性和适应性方面方面迈出了一步——我们的本地解决方案将帮助机器人社区解决了重要的延迟和连接性挑战。Gemini Robotics SDK 将进一步加速创新,允许开发者根据他们自己的特定需求调整模型。通过我们的可信测试程序注册以获取模型和 SDK 访问权限。随着我们继续探索将 AI 带入物理世界的未来,我们很高兴看到机器人界将使用这些新工具构建什么。

 

今年早些时候,DeepMind 首次宣布了 Gemini Robotics 家族系列。基于谷歌的 Gemini 2.0 LLMs,Gemini Robotics 包括一个用于物理行动的输出模态。除了这些模型,DeepMind 还发布了几个基准测试,包括用于评估机器人安全机制的 ASIMOV 基准测试(ASIMOV Benchmark )和用于测量视觉推理能力的具身推理问答(Embodied Reasoning QA,ERQA)评估数据集。

 

DeepMind 测试了他们的模型快速适应新任务的能力。对于 7 种不同的任务,如准备食物和玩牌,他们对模型进行了最多 100 次演示以进行微调;平均而言,使用他们的模型,机器人成功完成任务的时间超过 60%,击败了“当前最佳的本地 VLA”。然而,Gemini Robotics 模型的离线版本表现更好,接近 80%。

 

在有关Gemini Robotics On-Device的 Hacker News 讨论中,一位用户写道:

 

我在过去几个月里一直在研究 VLAs,我确信它们能成为一个大事件,即它们很可能是大家期待的“机器人技术的 chatgpt 时刻”。多模态 LLMs 已经内置了对图像和文本的大量理解,所以 VLAs 只是常规的 MMLLMs,它们被微调以输出可以馈送到机器人的特定指令序列……精妙之处在于,尽管目前每个人都在关注机器人手臂操纵物体,但没有理由认为这种方法不能应用于其他任何任务。想要一台智能割草机吗?它已经理解了“草坪”、“割草”、“不要破坏路径上的玩具”等,只需要微调一下如何正确操作割草机。

 

Gemini Robotics On-Device 尚未广泛可用,但感兴趣的开发人员可以注册等待名单。网站上还有一个相关模型 Gemini Robotics-ER 的互动演示Gemini Robotics SDK可在 GitHub 上找到。

 

原文链接:

https://www.infoq.com/news/2025/07/google-gemini-robotics/

2025-07-16 10:348841

评论

发布
暂无评论
发现更多内容

《数字经济全景白皮书》后疫情时代数字化驱动增长洞察之赛道篇

易观分析

数字经济 数智化转型

音频编辑服务UI SDK接入指导及常见问题

HarmonyOS SDK

HMS Core

2023最新版网络安全保姆级指南,从0基础进阶网络攻防工程师

网络安全学海

运维 网络安全 信息安全 渗透测试 漏洞挖掘

【知识点】如何快速开发、部署 Serverless 应用?

Serverless Devs

一文读懂SCADA系统的组件功能及应用

2D3D前端可视化开发

组态软件 工业组态软件 web组态软件 SCADA

Camtasia2023汉化中文版电脑屏幕录像和编辑的软件

茶色酒

Camtasia2023

可变二维码,玩转“码”上时代

旺链科技

区块链 区块链技术 区块链溯源

一体化移动办公平台,让政企工作更轻松、更便捷

BeeWorks

泼辣修图2023官方网页版入口在哪里?

茶色酒

泼辣修图2023

SR锁存器与D锁存器设计与建模

timerring

FPGA

低代码开发平台 打开数字化转型普惠之门

力软低代码开发平台

CMAE 结合对比学习和掩码,提高表征辨别力

Zilliz

WorkPlus即时通讯软件,专注于企业信息安全可靠的企业IM

BeeWorks

开年直播 | 博睿数据创始人兼CTO对话InfoQ,聊聊2023年重要战略技术趋势:可观测性

博睿数据

可观测性 博睿数据 媒体声音

数据结构-Hash常见操作实践

杨充

营销大数据如何帮助企业深入了解客户-镭速

镭速

高密度 ARM 服务器如何引领“数智时代”发展,打通“智变质变”正循环

GPU算力

深度学习 并行计算 arm架构 高性能计算 ARM服务器

什么是渲染农场,渲染农场一般怎么收费?

Renderbus瑞云渲染农场

云渲染农场 渲染农场

Spring Boot + WebSocket 实时监控异常

程序员大彬

Java springboot

泰山众筹4.0sun模式开发系统技术

薇電13242772558

智能合约

函数计算|如何使用层解决依赖包问题?

Serverless Devs

AirServer2024免费的手机投屏电脑软件

茶色酒

AirServer AirServer2023

微软提出 TinyMIM,首次用掩码预训练改进小型 ViT

Zilliz

新增模型服务、训练记录、源代码关联追溯,助力模型全生命周期管理|ModelWhale 版本更新

ModelWhale

人工智能 机器学习 云计算 数据分析 编程建模

英特尔锐炫DX9,DX11,DX12游戏性能持续提升,个别游戏高达87%

科技之家

微盟全链路压测:如何帮助电商业务实现10倍性能提升?

TakinTalks稳定性社区

CrossOver2023MAC电脑切换win系统打造的虚拟机软件

茶色酒

CrossOver2023

专访三维空间雷成老师 | 原来水墨画风格的3D建筑动画可以如此惊艳……

Renderbus瑞云渲染农场

瑞云渲染 3D建筑动画 三维空间

持续耕耘显卡市场,英特尔锐炫驱动重大升级

科技之家

DataEase 启动异常如何解决:Access denied for user 'root'@'xx.xx.xx.xxx' (using password YES)

搞大屏的小北

DataEase

《流浪地球2》的现实倒影(一):从量子计算机到MOSS

脑极体

量子计算机 小苔藓 流浪地球 MOSS

谷歌DeepMind发布机器人学基础模型Gemini Robotics On-Device_Google_Anthony Alford_InfoQ精选文章