写点什么

Anthropic 推出多代理 Harness,重构长时 AI 编程流程

作者:Leela Kumili
  • 2026-04-11
    北京
  • 本文字数:1263 字

    阅读完需:约 4 分钟

Anthropic 引入了一种多代理 harness 设计,用于支持长时间运行的自主应用开发,目标覆盖前端设计和全栈软件创建。该方法将任务划分给不同的代理,分别负责规划、生成和评估,旨在在持续数小时的 AI 会话中保持一致性并提升输出质量。

该设计解决了自主编码工作流中的常见挑战,例如上下文丢失和任务过早终止。Anthropic 的工程师在实现中引入了上下文重置以及结构化的交接产物,使工作流中的下一个代理能够从一个明确的状态继续执行。这不同于压缩(compaction),后者虽然保留上下文,但可能使模型在接近上下文限制时变得更加谨慎,从而在长时间任务中影响性能。

对输出进行自我评估是另一个重点。代理往往会高估自身结果,尤其是在设计等主观性较强的任务中。为缓解这一问题,Anthropic 引入了一个独立的评估代理,并通过少样本示例和评分标准进行校准。

Anthropic Labs 的工程负责人 Prithvi Rajasekaran 表示:

把“干活的”和“打分的”代理分开,是解决这个问题的关键做法。

在前端设计方面,团队建立了四项评分标准:设计质量、原创性、工艺和功能性。评估代理会浏览实时页面,使用 Playwright MCP 与界面交互,并提供详细的评审意见,以指导生成代理进行迭代循环。每一轮循环都会产生逐步优化的输出。每次运行的迭代次数在 5 到 15 次之间,有时最长可达四小时,并生成兼具视觉差异性与功能准确性的设计。

业界从业者也强调了该框架的结构化方法。Artem BredikhinLinkedIn 上写道:

长时间运行的 AI 代理之所以容易失败,原因其实很简单:每一次新的上下文窗口,本质上都是一次“失忆”。真正的突破不在模型本身,而在结构,包括清晰的 JSON 功能规格、强制执行的测试机制、逐次提交且可追踪的进展,以及一个确保每次会话都从可运行应用开始的初始化脚本,当这些基础设施到位,多小时运行的 AI 才开始变得可靠。

另一位观察者 Raghus ArangarajanLinkedIn 上评论称:

三代理框架为多小时运行的 AI 会话提供了一套可复用的工作方式,通过将评估和迭代从生成过程里拆分出来,让每一步都有独立的角色和边界,也因此在整体上提升了系统的可靠性和最终输出的质量。

Anthropic 的工程师将该框架应用于不同类型的任务,以评估性能改进。他们观察到,将规划、生成和评估分离,可以在主观性评估中表现更好,同时在客观任务中保持可复现性。结构化的多代理工作流还通过清晰定义代理之间的职责与交接,促进了长时间会话中的渐进式进展。

在操作层面,团队需要建立评估标准并校准评分机制,同时监控迭代输出。代理可以自动执行评估,但在初始校准和质量验证方面,人类监督仍然至关重要。该工作流支持任务的分布式处理,并允许多个代理根据依赖关系并行或顺序运行。

随着 AI 模型能力的提升,harness 的角色可能会发生变化,一些任务可能会直接由下一代模型完成。同时,更强的模型也使 harness 能够处理更复杂的工作。工程师应持续进行实验、监控执行轨迹、拆分任务并调整 harness,因为随着模型能力的演进,harness 的组合空间也在不断变化。

原文链接:

https://www.infoq.com/news/2026/04/anthropic-three-agent-harness-ai/