谷歌DeepMind推出Gemini 2.5计算机使用模型，实现可操作UI的智能体_AI&大模型



 写点什么



大小：544.47K时长：03:05

谷歌DeepMind推出Gemini 2.5计算机使用模型，实现可操作UI的智能体

谷歌 DeepMind 发布 Gemini 2.5 计算机使用模型，该模型是 Gemini 2.5 Pro 系统的一个变体，让 AI 智能体能够直接与图形用户界面交互。借助这一新模型，开发者可以构建出能够点击、输入、滚动以及操作网页交互元素的 AI 智能体。

计算机使用模型将 Gemini 的多模态推理与视觉理解能力引入了浏览器和移动应用等交互环境，在这些场景中，人工智能需要精准感知屏幕上下文并据此采取相应行动。早期评估表明，该模型在多项界面控制基准测试中表现卓越，涵盖 Online-Mind2Web、WebVoyager 和 AndroidWorld 等。据 DeepMind 和 Browserbase 的测试结果显示，该模型在 Online-Mind2Web 基准测试中达到了约 70% 的准确率，且响应时间优于其他已公开评估的系统。

在实际应用中，该模型通过 Gemini API 提供的新 computer_use 工具以循环方式运行。开发者首先向模型提供环境的截图、任务描述以及之前的动作记录。随后，模型会返回结构化的函数调用，这些调用代表了“点击”、“输入”或“滚动”等操作。客户端执行这些操作后，会捕获新的截图并将其反馈给模型，如此循环往复，直至任务完成。

尽管目前该计算机使用模型主要针对浏览器环境进行了优化，但它在移动 UI 控制方面也展现出了强大的潜力，这表明其未来有望扩展到桌面操作系统。

此次发布在开发者社区引发了广泛而激烈的讨论。高级数据科学顾问 Wissam Benhaddad 指出，尽管这种方法极具前景，但在实际部署过程中仍面临诸多挑战：

这种解决方案极具潜力，但我认为它尚未成熟到可以投入生产环境的程度。当前的实现速度较为缓慢，而且在许多情况下，完全可以采用标准的 API 调用或直接进行应用程序集成来达成目标。依我之见，推理过程不应在大语言模型（LLM）层面展开，而应在潜在空间中进行，在那里，信息能够以更加压缩且高效的方式流转——而这正是深度学习的强项所在。我期待着看到此类产品朝着这一方向不断进化。

DeepMind 强调，安全防护是该系统设计的核心要素。Gemini 2.5 计算机使用模型在执行任何动作之前，都会通过逐级安全服务进行严格评估，并且在 Web 环境中集成了针对恶意提示、不安全动作以及诈骗行为的全面保护措施。对于涉及购买或系统级交互等敏感操作，开发者可以设置要求用户进行确认。

该模型的系统卡片详细阐述了这些安全功能如何在赋予开发者完全监督权的同时有效降低潜在风险。DeepMind 建议，在将智能体部署到生产环境之前，务必进行彻底的测试。

Gemini 2.5 计算机使用模型现已通过 Google AI Studio 和 Vertex AI 中的 Gemini API 以预览版的形式向用户开放。

【声明：本文由 InfoQ 翻译，未经许可禁止转载。】

查看英文原文：https://www.infoq.com/news/2025/10/gemini-computer-use/

发布

暂无评论

创作场景

谷歌 DeepMind 推出 Gemini 2.5 计算机使用模型，实现可操作 UI 的智能体

评论

Python爬虫实战：利用青果代理IP获取跨境电商数据

测试用例设计方法六脉神剑——第一剑：入门试招，等价边界初探

用增结算数仓化改造：在/离线调度系统的构建与应用

数字活化百年古戏楼，火山引擎打造「虚拟直播间」

当机器人猛刷全网一半流量，是时候请出芯盾时代智能人机识别系统了

“团队敏捷教练进阶课程” 12月14-15日 · A-CSM认证周末班

“企业级敏捷教练课程” 11月23-24日 · CSP-SM认证周末班

Abaqus中的S、U、V、E、CF分别是什么意思？

海南文昌等保测评机构本地有吗？

时间复杂度为 O(n^2) 的排序算法

国内堡垒机公司有哪些？怎么选择？

02.工厂模式设计思想

springboot的项目如何既要用jar包启动，同时还可以为不同的机房设置不同的配置文件

测试人生 | 双非院校，2年工作经验年薪近20万

可折叠LED广告机的优势及应用场景

创作场景

谷歌 DeepMind 推出 Gemini 2.5 计算机使用模型，实现可操作 UI 的智能体

评论

推荐阅读

电子书

大厂实战PPT下载