写点什么

IBM Research 在 Hugging Face 平台上推出开源可配置的代理框架 CUGA

作者:Robert Krzaczyński

  • 2025-12-24
    北京
  • 本文字数:986 字

    阅读完需:约 3 分钟

大小:491.95K时长:02:47
IBM Research在Hugging Face平台上推出开源可配置的代理框架CUGA

IBM Research 在 Hugging Face Spaces 平台上发布了CUGA(可配置通用代理),使得人们更容易通过开放模型和真实工作流评估其面向企业的代理框架。作为一种实用的解决方案,IBM 希望 CUGA 可以替代那些脆弱的紧耦合代理框架,后者通常存在工具误用以及在长期推理和故障恢复方面表现欠佳的问题。

 

CUGA 被设计成一个可配置的通用代理,用于执行跨 Web 界面和 API 的复杂的多步骤工作流。其架构强调可靠性、可恢复性和结构化执行,而不是针对有限的任务进行优化。在基准评估中,CUGA 在 AppWorld(一套包含数百个真实 API 任务的套件)以及 WebArena(专注于自主 Web 和计算机使用场景)上表现出色。这说明这个系统能够处理长期任务、使用动态工具以及从失败中恢复,而不是针对单步交互做优化。

 

在架构层面,CUGA 结合了结构化规划和受控执行。用户意图首先被解释为目标,然后分解为通过动态任务账本跟踪的子任务。在中间步骤失败时,这个账本会重新规划并恢复执行。有专门的代理(如 API 代理)操作内部推理循环,在安全沙箱中执行动作之前生成伪代码。工具使用通过一个增强型注册表。该注册表能够理解的工具能力超过了基本的 MCP 描述符,可以实现更紧密的协调并减少幻觉。



图片来源:Hugging Face 博客

 

这个代理的一个关键设计选择是可配置。CUGA 暴露了多种推理模式,它们在延迟、成本和准确性之间做了权衡,使得团队可以根据工作负载调整行为。在回答有关失败处理的问题时,IBM Research AI 代理高级经理 Asaf Adi解释说:

 

在准确模式下,它将恢复正常。CUGA 在生产力、业务流程自动化和客户服务类型任务中表现极为出色。

 

CUGA 遵循 Apache 2.0 许可,并支持通过 OpenAPI 规范、MCP 服务器和 LangChain 进行集成。在更大的多代理系统中,该代理也可以作为其中一个可调用的工具。此外,CUGA 集成了 Langflow,其中有一个专用的小部件让用户可以用可视化的方式配置和部署代理工作流。

 

Hugging Face Spaces 演示在一个小型 CRM 场景中展示了这些能力,通过预配置的工具和策略提供了一个具体的生产级应用的预览。IBM Research AI 代理中间件和应用总监 Merve Unuvar 在评论此次发布时指出

 

我们非常期待获得 Hugging Face 开源社区的反馈,使 CUGA 更加健壮并做好生产应用准备!

 

CUGA 项目托管在GitHub上,其代码库、文档和示例都已公开发布,欢迎开发人员进行实验,部署自己的实例,为项目的发展做出贡献。

 

原文链接:

https://www.infoq.com/news/2025/12/ibm-cuga/

2025-12-24 15:001

评论

发布
暂无评论

性能提升20%,字节跳动HTTPDNS从中心下沉到边缘

火山引擎边缘云

边缘计算 HTTP DNS #DNS 边缘计算平台

AWS 弹性伸缩特性介绍

AutoMQ

云计算 kafka 云原生 AWS

MySQL 备库可以设置 sync_binlog 非 1 吗?

爱可生开源社区

MySQL 数据库 MySQL主从复制

商品图片与详情描述:1688 API返回值的重要部分

技术冰糖葫芦

API 文档 API 测试 API 优先 API Hub

天工一刻 | 一文看懂3D大模型

新消费日报

攻坚克难岁月长,自主腾飞世界强——回顾近代中国数据库的发展与飞跃

Geek_b7ce72

火山引擎VeDI数据技术分享:两个步骤,为Parquet降本提效

字节跳动数据平台

云服务 数据平台 火山引擎 数据飞轮

Kubernetes集群的ETCD分布式数据库高可用原理解析

inBuilder低代码平台

开源 云原生 Kubernetes, 云原生, eBPF

写报告 进图谱 做演讲,可信数据库大会上亚信科技AntDB可太忙了

亚信AntDB数据库

如何借助逻辑数据编织平台实现“数据优先堆栈( DFS )”

Aloudata

数据仓库 数据虚拟化 数据编织

从焦虑症到AI「网红」:这名程序员是如何让AI「助他一臂之力」

新程序员编辑部

ChatGPT Prompt

管理能力达到国际认可水平 智谱获得国内首批ISO/IEC 42001:2023人工智能管理体系认证证书

技术研究院

如数据血缘探究数据管理的“自治理”

Aloudata

Data 数据管理 数据血缘 Data Fabric

大咖公开课 | 大模型场景讲解以及测试方法

霍格沃兹测试开发学社

全面解析:抖音商品列表数据接口的使用与集成技巧

tbapi

抖音 抖音商品列表数据接口 抖音商品列表数据采集 抖音API接口

澳鹏Appen入选大模型产业链基础层图谱及案例研究

澳鹏Appen

大模型训练 大模型 百模大战

汽车辐射大?技术来救它:整车辐射抗扰发射天线仿真建模及性能预测

Altair RapidMiner

人工智能 汽车 仿真 altair 辐射

一文剖析高可用向量数据库的本质

Zilliz

人工智能 大数据 AI Zilliz 向量数据库

用Python来DIY一个AI面部情绪识别API的简单方案

幂简集成

API

智胜未来:国内大模型+Agent应用案例精选,以及主流Agent框架开源项目推荐

不在线第一只蜗牛

人工智能 AI

HAProxy 可观测性最佳实践

观测云

HAProxy

IBM Research在Hugging Face平台上推出开源可配置的代理框架CUGA_架构_InfoQ精选文章