
IBM Research 在 Hugging Face Spaces 平台上发布了CUGA(可配置通用代理),使得人们更容易通过开放模型和真实工作流评估其面向企业的代理框架。作为一种实用的解决方案,IBM 希望 CUGA 可以替代那些脆弱的紧耦合代理框架,后者通常存在工具误用以及在长期推理和故障恢复方面表现欠佳的问题。
CUGA 被设计成一个可配置的通用代理,用于执行跨 Web 界面和 API 的复杂的多步骤工作流。其架构强调可靠性、可恢复性和结构化执行,而不是针对有限的任务进行优化。在基准评估中,CUGA 在 AppWorld(一套包含数百个真实 API 任务的套件)以及 WebArena(专注于自主 Web 和计算机使用场景)上表现出色。这说明这个系统能够处理长期任务、使用动态工具以及从失败中恢复,而不是针对单步交互做优化。
在架构层面,CUGA 结合了结构化规划和受控执行。用户意图首先被解释为目标,然后分解为通过动态任务账本跟踪的子任务。在中间步骤失败时,这个账本会重新规划并恢复执行。有专门的代理(如 API 代理)操作内部推理循环,在安全沙箱中执行动作之前生成伪代码。工具使用通过一个增强型注册表。该注册表能够理解的工具能力超过了基本的 MCP 描述符,可以实现更紧密的协调并减少幻觉。
图片来源:Hugging Face 博客
这个代理的一个关键设计选择是可配置。CUGA 暴露了多种推理模式,它们在延迟、成本和准确性之间做了权衡,使得团队可以根据工作负载调整行为。在回答有关失败处理的问题时,IBM Research AI 代理高级经理 Asaf Adi解释说:
在准确模式下,它将恢复正常。CUGA 在生产力、业务流程自动化和客户服务类型任务中表现极为出色。
CUGA 遵循 Apache 2.0 许可,并支持通过 OpenAPI 规范、MCP 服务器和 LangChain 进行集成。在更大的多代理系统中,该代理也可以作为其中一个可调用的工具。此外,CUGA 集成了 Langflow,其中有一个专用的小部件让用户可以用可视化的方式配置和部署代理工作流。
Hugging Face Spaces 演示在一个小型 CRM 场景中展示了这些能力,通过预配置的工具和策略提供了一个具体的生产级应用的预览。IBM Research AI 代理中间件和应用总监 Merve Unuvar 在评论此次发布时指出:
我们非常期待获得 Hugging Face 开源社区的反馈,使 CUGA 更加健壮并做好生产应用准备!
CUGA 项目托管在GitHub上,其代码库、文档和示例都已公开发布,欢迎开发人员进行实验,部署自己的实例,为项目的发展做出贡献。
原文链接:







评论