写点什么

谷歌 DeepMind 推出 Gemini 2.5 计算机使用模型,实现可操作 UI 的智能体

作者:Robert Krzaczyński

  • 2025-10-15
    北京
  • 本文字数:1091 字

    阅读完需:约 4 分钟

大小:544.47K时长:03:05
谷歌DeepMind推出Gemini 2.5计算机使用模型,实现可操作UI的智能体

谷歌 DeepMind 发布 Gemini 2.5 计算机使用模型,该模型是 Gemini 2.5 Pro 系统的一个变体,让 AI 智能体能够直接与图形用户界面交互。借助这一新模型,开发者可以构建出能够点击、输入、滚动以及操作网页交互元素的 AI 智能体。


计算机使用模型将 Gemini 的多模态推理与视觉理解能力引入了浏览器和移动应用等交互环境,在这些场景中,人工智能需要精准感知屏幕上下文并据此采取相应行动。早期评估表明,该模型在多项界面控制基准测试中表现卓越,涵盖 Online-Mind2Web、WebVoyager 和 AndroidWorld 等。据 DeepMind 和 Browserbase 的测试结果显示,该模型在 Online-Mind2Web 基准测试中达到了约 70% 的准确率,且响应时间优于其他已公开评估的系统。


在实际应用中,该模型通过 Gemini API 提供的新 computer_use 工具以循环方式运行。开发者首先向模型提供环境的截图、任务描述以及之前的动作记录。随后,模型会返回结构化的函数调用,这些调用代表了“点击”、“输入”或“滚动”等操作。客户端执行这些操作后,会捕获新的截图并将其反馈给模型,如此循环往复,直至任务完成。


尽管目前该计算机使用模型主要针对浏览器环境进行了优化,但它在移动 UI 控制方面也展现出了强大的潜力,这表明其未来有望扩展到桌面操作系统。


此次发布在开发者社区引发了广泛而激烈的讨论。高级数据科学顾问 Wissam Benhaddad 指出 ,尽管这种方法极具前景,但在实际部署过程中仍面临诸多挑战:

这种解决方案极具潜力,但我认为它尚未成熟到可以投入生产环境的程度。当前的实现速度较为缓慢,而且在许多情况下,完全可以采用标准的 API 调用或直接进行应用程序集成来达成目标。依我之见,推理过程不应在大语言模型(LLM)层面展开,而应在潜在空间中进行,在那里,信息能够以更加压缩且高效的方式流转——而这正是深度学习的强项所在。我期待着看到此类产品朝着这一方向不断进化。


DeepMind 强调,安全防护是该系统设计的核心要素。Gemini 2.5 计算机使用模型在执行任何动作之前,都会通过逐级安全服务进行严格评估,并且在 Web 环境中集成了针对恶意提示、不安全动作以及诈骗行为的全面保护措施。对于涉及购买或系统级交互等敏感操作,开发者可以设置要求用户进行确认。


该模型的系统卡片详细阐述了这些安全功能如何在赋予开发者完全监督权的同时有效降低潜在风险。DeepMind 建议,在将智能体部署到生产环境之前,务必进行彻底的测试。


Gemini 2.5 计算机使用模型现已通过 Google AI Studio 和 Vertex AI 中的 Gemini API 以预览版的形式向用户开放。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


查看英文原文https://www.infoq.com/news/2025/10/gemini-computer-use/

2025-10-15 11:002390

评论

发布
暂无评论

RPA+智能问答实现微信端智能客服 | 京东云技术团队

京东科技开发者

微信 RPA 智能客服 企业号 8 月 PK 榜

3-6作业

家有两宝

架构实战营

直播平台源码优质平台技术:并行处理与线程优化的探索与实践

山东布谷科技

软件开发 源码搭建 直播平台源码 并行处理 线程优化

十问Huawei Cloud Toolkit:开发插件如何提升云上开发效能

华为云开发者联盟

ide 开发 华为云 华为云开发者联盟 企业号 8 月 PK 榜

低代码实现探索(五十九)SAP底层技术研究

零道云-混合式低代码平台

开源XL-LightHouse与Flink、ClickHouse之类技术相比有什么优势

feng

大数据 flink Clickhouse 流式计算 流式统计

jstat命令总结

java易二三

Java 程序员 JVM 计算机 科技

软件测试丨Chrome 115之后的版本,如何更新driver?

测试人

chrome 程序员 软件测试 自动化测试 chromedriver

chatglm2-6b模型在9n-triton中部署并集成至langchain实践 | 京东云技术团队

京东科技开发者

人工智能 #LangChain langchain 企业号 8 月 PK 榜 ChatGLM2-6B

透彻理解 Axios Blob 的使用与优化

Apifox

性能优化 后端 HTTP API web开发

深入理解 Flutter 图片加载原理 | 京东云技术团队

京东科技开发者

flutter 移动开发 图片懒加载 企业号 8 月 PK 榜

前端合成海报并保存到本地

南城FE

JavaScript 小程序 前端 图片合成

干货满满:多人语音聊天室源码开发解析

山东布谷网络科技

源码剖析

【5分钟背八股】ZooKeeper和Reids做分布式锁的区别?

java易二三

redis zookeeper 程序员 计算机 八股文

9-7毕业设计,秒杀架构

家有两宝

架构实战营

小白都会的数据可视化大屏搭建,速来学习

华为云开发者联盟

开发 开发工具 华为云 华为云开发者联盟 企业号 8 月 PK 榜

Nacos服务整合SpringBoot框架技术

java易二三

Java 程序员 Spring Boot 计算机 科技

HertzBeat 集群版开源,易用友好的开源实时监控系统!

TanCloud探云

Java GitHub 开源 程序员 监控产品

利用CI机制管控jar依赖树 | 京东云技术团队

京东科技开发者

ci CI/CD jar包 企业号 8 月 PK 榜

LED小间距屏幕的COB封装技术应用和优势

Dylan

技术 封装 PCB LED显示屏

ABAQUS正版授权软件怎么下载?达索中国代理商思茂信息

思茂信息

abaqus abaqus软件 有限元仿真技术 有限元分析 结构仿真

电商小程序微服务架构

艾瑾行

架构训练营

OpenSSL 3.0.0 设计(三)|FIPS 模块

铜锁开源密码库

算法 信息安全 密码学 openssl 铜锁

Serverless 应用托管助力企业加速创新

Serverless Devs

阿里云 Serverless 云原生 应用引擎

SpringBoot使用spring.config.import多种方式导入配置文件

java易二三

Java spring 程序员 Spring Boot 计算机

分享实录 | 将 NGINX 打造成功能强大的 API 网关(下)

NGINX开源社区

nginx api 网关 后端服务

项目启动会的正确打开方式

老张

项目管理 项目启动

火山引擎ByteHouse:一套方案,让OLAP引擎在精准投放场景更高效

字节跳动数据平台

大数据 云原生 Clickhouse 企业号 8 月 PK 榜

谷歌DeepMind推出Gemini 2.5计算机使用模型,实现可操作UI的智能体_AI&大模型_InfoQ精选文章