写点什么

AWS WorkSpaces 支持 AI 智能体直接操作遗留桌面应用程序

作者:Steef-Jan Wiggers
  • 2026-05-14
    北京
  • 本文字数:1588 字

    阅读完需:约 5 分钟

亚马逊云科技宣布 Amazon WorkSpaces 现已可作为 AI 智能体的托管虚拟桌面,支持智能体通过计算机视觉与输入模拟来操作传统桌面应用,无需对应用程序进行现代化改造或 API 集成。

 

它要解决的问题十分普遍。2024 年甘特报告显示,75% 的企业仍在运行缺少现代 API 的遗留系统,71% 的财富 500 强企业在大型机系统上运行核心业务流程,且缺乏完善的程序化访问能力。对于这类企业来说,部署 AI 智能体意味着要在耗资巨大的应用现代化改造和彻底暂缓 AI 落地之间二选一。

 

WorkSpaces 采用了一种截然不同的方式:为智能体提供与人类员工完全相同的桌面环境。智能体通过 IAM 完成身份验证,通过唯一的预签名 URL 接入 WorkSpaces 实例,再通过截图识别(计算机视觉)、点击、输入、滚动等操作(模拟人机输入)与应用程序发生交互。应用程序无法感知是智能体在操作,软件本身也无需做任何修改。

 

(来源:亚马逊云科技新闻博客文章

 

Nuvens Consulting 总监 Chris Noon 在公告中阐述了这项方案对受监管行业的价值:

WorkSpaces 让我们的客户能够为 AI 智能体提供与其员工所使用的相同的安全、受管控的桌面环境。无需自定义 API 集成,具有完整的审计追踪和开箱即用的企业级隔离。对于受监管的行业来说,这不是锦上添花,而是基本底线。

 

MCP 集成使其具备框架无关性。WorkSpaces 对外开放了托管 MCP 端点,这意味着任何支持 MCP 的智能体框架,包括 LangChain、CrewAI 和 Strands Agents,都可以直接接入。AWS 使用基于 Amazon Bedrock 构建的 Strands 智能体演示了该项能力,该智能体可在示例药房系统中处理处方续配工作流程:查找患者记录、检索药品信息、提交订单并确认续配,全程无需依赖 API。

 

安全模型继承了企业为人类 WorkSpaces 环境所做的所有设置。智能体在隔离的 WorkSpaces 实例中运行,而不是在本地机器或内部网络上。CloudTrail 会捕获所有操作行为用于审计,CloudWatch 则提供完整的可观测性。亚马逊云科技建议为每个智能体分配唯一的 IAM 身份,用以区分智能体操作与人类操作。桌面屏幕分辨率、图像格式和智能体能力(计算机输入、计算机视觉、屏幕截图存储)均可按资源栈进行配置。

 

成本是一个显而易见的质疑点。AI 编程公司 Reflex 最近发布的基准研究显示,视觉智能体完成一项任务大约消耗 50 万输入词元,而 API 智能体仅用了 1.2 万词元,成本差异达 45 倍。Reflex 增长负责人 Palash Awasthi 认为:

更好的视觉模型可以降低每张屏幕截图的错误率,但并不能减少获取相关数据所需的屏幕截图数量。

 

视觉智能体耗时 17 分钟,而调用 API 仅需 20 秒。Awasthi 承认,更先进的模型最终会降低成本,但他坚持认为,基于视觉的智能体所需步骤始终会多于基于 API 的替代方案。

 

这正是亚马逊云科技想要表达的核心权衡:计算机使用智能体和 API 解决的是完全不同的问题。有可用 API 时,智能体理应优先使用。但绝大多数企业软件、遗留 ERP 系统、胖客户端应用和专用工具本身就没有提供 API 访问能力。

 

对于这些应用程序而言,一个成本高出 45 倍的智能体仍有可能比耗时数年的现代化改造项目更加经济。每个企业都需要弄清楚的是,工作流自动化的价值是否足以证明特定规模下的词元成本是合理的。云桌面的临时部署特性有助于成本管控:组织可以为特定任务启动 WorkSpaces 实例,并在智能体完成后将其关闭,无需维护持续运行的基础设施。

 

微软也正通过 Windows 365 for AI agents 推行类似思路,打造了一个平行的云桌面服务品类,让 AI 系统通过用户界面而非 API 来操作软件。

 

WorkSpaces 智能体访问功能目前在美国东部(弗吉尼亚北部、俄亥俄)、美国西部(俄勒冈)、加拿大(中部)、欧洲(法兰克福、爱尔兰、巴黎、伦敦)和亚太地区(东京、孟买、悉尼、首尔、新加坡)提供预览版。包含示例代码的 GitHub 仓库 现已可用。

 

查看英文原文https://www.infoq.com/news/2026/05/aws-workspaces-ai-agents/