
谷歌 DeepMind 发布 Gemini 2.5 计算机使用模型,该模型是 Gemini 2.5 Pro 系统的一个变体,让 AI 智能体能够直接与图形用户界面交互。借助这一新模型,开发者可以构建出能够点击、输入、滚动以及操作网页交互元素的 AI 智能体。
计算机使用模型将 Gemini 的多模态推理与视觉理解能力引入了浏览器和移动应用等交互环境,在这些场景中,人工智能需要精准感知屏幕上下文并据此采取相应行动。早期评估表明,该模型在多项界面控制基准测试中表现卓越,涵盖 Online-Mind2Web、WebVoyager 和 AndroidWorld 等。据 DeepMind 和 Browserbase 的测试结果显示,该模型在 Online-Mind2Web 基准测试中达到了约 70% 的准确率,且响应时间优于其他已公开评估的系统。
在实际应用中,该模型通过 Gemini API 提供的新 computer_use
工具以循环方式运行。开发者首先向模型提供环境的截图、任务描述以及之前的动作记录。随后,模型会返回结构化的函数调用,这些调用代表了“点击”、“输入”或“滚动”等操作。客户端执行这些操作后,会捕获新的截图并将其反馈给模型,如此循环往复,直至任务完成。
尽管目前该计算机使用模型主要针对浏览器环境进行了优化,但它在移动 UI 控制方面也展现出了强大的潜力,这表明其未来有望扩展到桌面操作系统。
此次发布在开发者社区引发了广泛而激烈的讨论。高级数据科学顾问 Wissam Benhaddad 指出 ,尽管这种方法极具前景,但在实际部署过程中仍面临诸多挑战:
这种解决方案极具潜力,但我认为它尚未成熟到可以投入生产环境的程度。当前的实现速度较为缓慢,而且在许多情况下,完全可以采用标准的 API 调用或直接进行应用程序集成来达成目标。依我之见,推理过程不应在大语言模型(LLM)层面展开,而应在潜在空间中进行,在那里,信息能够以更加压缩且高效的方式流转——而这正是深度学习的强项所在。我期待着看到此类产品朝着这一方向不断进化。
DeepMind 强调,安全防护是该系统设计的核心要素。Gemini 2.5 计算机使用模型在执行任何动作之前,都会通过逐级安全服务进行严格评估,并且在 Web 环境中集成了针对恶意提示、不安全动作以及诈骗行为的全面保护措施。对于涉及购买或系统级交互等敏感操作,开发者可以设置要求用户进行确认。
该模型的系统卡片详细阐述了这些安全功能如何在赋予开发者完全监督权的同时有效降低潜在风险。DeepMind 建议,在将智能体部署到生产环境之前,务必进行彻底的测试。
Gemini 2.5 计算机使用模型现已通过 Google AI Studio 和 Vertex AI 中的 Gemini API 以预览版的形式向用户开放。
【声明:本文由 InfoQ 翻译,未经许可禁止转载。】
查看英文原文:https://www.infoq.com/news/2025/10/gemini-computer-use/
评论