写点什么

谷歌 DeepMind 推出 Gemini 2.5 计算机使用模型,实现可操作 UI 的智能体

作者:Robert Krzaczyński

  • 2025-10-15
    北京
  • 本文字数:1091 字

    阅读完需:约 4 分钟

大小:544.47K时长:03:05
谷歌DeepMind推出Gemini 2.5计算机使用模型,实现可操作UI的智能体

谷歌 DeepMind 发布 Gemini 2.5 计算机使用模型,该模型是 Gemini 2.5 Pro 系统的一个变体,让 AI 智能体能够直接与图形用户界面交互。借助这一新模型,开发者可以构建出能够点击、输入、滚动以及操作网页交互元素的 AI 智能体。


计算机使用模型将 Gemini 的多模态推理与视觉理解能力引入了浏览器和移动应用等交互环境,在这些场景中,人工智能需要精准感知屏幕上下文并据此采取相应行动。早期评估表明,该模型在多项界面控制基准测试中表现卓越,涵盖 Online-Mind2Web、WebVoyager 和 AndroidWorld 等。据 DeepMind 和 Browserbase 的测试结果显示,该模型在 Online-Mind2Web 基准测试中达到了约 70% 的准确率,且响应时间优于其他已公开评估的系统。


在实际应用中,该模型通过 Gemini API 提供的新 computer_use 工具以循环方式运行。开发者首先向模型提供环境的截图、任务描述以及之前的动作记录。随后,模型会返回结构化的函数调用,这些调用代表了“点击”、“输入”或“滚动”等操作。客户端执行这些操作后,会捕获新的截图并将其反馈给模型,如此循环往复,直至任务完成。


尽管目前该计算机使用模型主要针对浏览器环境进行了优化,但它在移动 UI 控制方面也展现出了强大的潜力,这表明其未来有望扩展到桌面操作系统。


此次发布在开发者社区引发了广泛而激烈的讨论。高级数据科学顾问 Wissam Benhaddad 指出 ,尽管这种方法极具前景,但在实际部署过程中仍面临诸多挑战:

这种解决方案极具潜力,但我认为它尚未成熟到可以投入生产环境的程度。当前的实现速度较为缓慢,而且在许多情况下,完全可以采用标准的 API 调用或直接进行应用程序集成来达成目标。依我之见,推理过程不应在大语言模型(LLM)层面展开,而应在潜在空间中进行,在那里,信息能够以更加压缩且高效的方式流转——而这正是深度学习的强项所在。我期待着看到此类产品朝着这一方向不断进化。


DeepMind 强调,安全防护是该系统设计的核心要素。Gemini 2.5 计算机使用模型在执行任何动作之前,都会通过逐级安全服务进行严格评估,并且在 Web 环境中集成了针对恶意提示、不安全动作以及诈骗行为的全面保护措施。对于涉及购买或系统级交互等敏感操作,开发者可以设置要求用户进行确认。


该模型的系统卡片详细阐述了这些安全功能如何在赋予开发者完全监督权的同时有效降低潜在风险。DeepMind 建议,在将智能体部署到生产环境之前,务必进行彻底的测试。


Gemini 2.5 计算机使用模型现已通过 Google AI Studio 和 Vertex AI 中的 Gemini API 以预览版的形式向用户开放。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


查看英文原文https://www.infoq.com/news/2025/10/gemini-computer-use/

2025-10-15 11:002470

评论

发布
暂无评论

壹米滴答助力制造业、商贸业及电商企业提升商业流通效率

联营汇聚

架构师日记-到底该如何搭建一个新系统 | 京东云技术团队

京东科技开发者

架构 架构设计 工程架构 企业号 7 月 PK 榜

思维导图软件哪个好?试用百款导图软件只留下这15个。

彭宏豪95

思维导图 在线协作文档 mac思维导图 效率软件 笔记工具

云管平台和云服务器一样吗?两者有啥区别?

行云管家

云计算 云服务器

极客欢聚,燃动夏日!开发者嘉年华等你来

飞桨PaddlePaddle

人工智能 百度 paddle 飞桨

【推荐】贵阳市等保测评机构看这里!

行云管家

贵阳 等保 等级保护 等保测评

常规LED广告显示屏的运营成本怎么估算

Dylan

广告 项目 运营 成本 LED显示屏

多元融合:流媒体传输网络的全盘解法

阿里云CloudImagine

云计算 阿里云 视频云

DHorse v1.2.1 发布,基于k8s的发布平台

tiandizhiguai

DevOps k8s

sharding-jdbc分库连接数优化 | 京东物流技术团队

京东科技开发者

分库分表 Sharding sharding-jdbc 企业号 7 月 PK 榜

和鲸 × 于峻川丨以遥感领域为例,浅谈 AI for Science 带来的数据开放、跨学科协同及产学研一体

ModelWhale

遥感 AI for Science 协同科研 数据开放 产学研一体

性能测试的理解误区

老张

性能测试 稳定性保障

向量数据库的崛起:从矢量搜索到深度学习 (二)

极限实验室

深度学习 数据库 搜索 极限科技

视频交友源码开发搭建平台用户资料功能:小功能有大用处!

山东布谷科技

软件开发 视频 实时音视频 源码搭建 交友

【活动回顾】Data + AI 时代下的云数仓设计 @Qcon

Databend

经过半年的努力,我终于成为了谷歌开发者专家(GDE)

拭心

android 面试 谷歌 GDE

openEuler 22.03 LTS登录AWS Marketplace

openEuler

Linux 操作系统 AWS openEuler 资讯

飞腾开发者平台上线龙蜥专区,为开发者提供硬核技术支持

OpenAnolis小助手

开源 开发者 生态 龙蜥社区 飞腾

2023IKCEST “一带一路” 国际大数据竞赛重磅启动!

飞桨PaddlePaddle

人工智能 百度 paddle 飞桨 百度飞桨

中航机载新技术预研与应用工程师万胜来《IoTDB 在中航机载智能云制造系统》

Apache IoTDB

时序数据库 IoTDB Apache IoTDB 中国航天

Kubernetes:快速入门指南

NGINX开源社区

nginx Kubernetes 微服务

使用GPT探索学习新东西的乐趣与惊喜 💡|社区征文

Five

学习 安卓 GPT 年中技术盘点

TinyNG——开源Angular组件库,助力Web应用快速开发!

OpenTiny社区

CSS typescript angluar 前端ui组件库

再获认可!万里数据库参编中国信通院数据库研究报告 GreatSQL入选中国数据库产业图谱

GreatSQL

人人都是架构师-清晰架构 | 京东物流技术团队

京东科技开发者

架构 架构设计 企业号 7 月 PK 榜 清晰架构

手把手教你用 NebulaGraph AI 全家桶跑图算法

NebulaGraph

人工智能 图数据库

实时社群技术专题(二):百万级成员实时社群技术实现(消息系统篇)

JackJiang

网络编程 即时通讯 IM

HarmonyOS课程尝鲜计划,优享特权大礼包

HarmonyOS开发者

HarmonyOS

谷歌DeepMind推出Gemini 2.5计算机使用模型,实现可操作UI的智能体_AI&大模型_InfoQ精选文章