Anthropic 推出多代理 Harness，重构长时 AI 编程流程

Anthropic 引入了一种多代理 harness 设计，用于支持长时间运行的自主应用开发，目标覆盖前端设计和全栈软件创建。该方法将任务划分给不同的代理，分别负责规划、生成和评估，旨在在持续数小时的 AI 会话中保持一致性并提升输出质量。

该设计解决了自主编码工作流中的常见挑战，例如上下文丢失和任务过早终止。Anthropic 的工程师在实现中引入了上下文重置以及结构化的交接产物，使工作流中的下一个代理能够从一个明确的状态继续执行。这不同于压缩（compaction），后者虽然保留上下文，但可能使模型在接近上下文限制时变得更加谨慎，从而在长时间任务中影响性能。

对输出进行自我评估是另一个重点。代理往往会高估自身结果，尤其是在设计等主观性较强的任务中。为缓解这一问题，Anthropic 引入了一个独立的评估代理，并通过少样本示例和评分标准进行校准。

Anthropic Labs 的工程负责人 Prithvi Rajasekaran 表示：

把“干活的”和“打分的”代理分开，是解决这个问题的关键做法。

在前端设计方面，团队建立了四项评分标准：设计质量、原创性、工艺和功能性。评估代理会浏览实时页面，使用 Playwright MCP 与界面交互，并提供详细的评审意见，以指导生成代理进行迭代循环。每一轮循环都会产生逐步优化的输出。每次运行的迭代次数在 5 到 15 次之间，有时最长可达四小时，并生成兼具视觉差异性与功能准确性的设计。

业界从业者也强调了该框架的结构化方法。Artem Bredikhin 在 LinkedIn 上写道：

长时间运行的 AI 代理之所以容易失败，原因其实很简单：每一次新的上下文窗口，本质上都是一次“失忆”。真正的突破不在模型本身，而在结构，包括清晰的 JSON 功能规格、强制执行的测试机制、逐次提交且可追踪的进展，以及一个确保每次会话都从可运行应用开始的初始化脚本，当这些基础设施到位，多小时运行的 AI 才开始变得可靠。

另一位观察者 Raghus Arangarajan 在 LinkedIn 上评论称：

三代理框架为多小时运行的 AI 会话提供了一套可复用的工作方式，通过将评估和迭代从生成过程里拆分出来，让每一步都有独立的角色和边界，也因此在整体上提升了系统的可靠性和最终输出的质量。

Anthropic 的工程师将该框架应用于不同类型的任务，以评估性能改进。他们观察到，将规划、生成和评估分离，可以在主观性评估中表现更好，同时在客观任务中保持可复现性。结构化的多代理工作流还通过清晰定义代理之间的职责与交接，促进了长时间会话中的渐进式进展。

在操作层面，团队需要建立评估标准并校准评分机制，同时监控迭代输出。代理可以自动执行评估，但在初始校准和质量验证方面，人类监督仍然至关重要。该工作流支持任务的分布式处理，并允许多个代理根据依赖关系并行或顺序运行。

随着 AI 模型能力的提升，harness 的角色可能会发生变化，一些任务可能会直接由下一代模型完成。同时，更强的模型也使 harness 能够处理更复杂的工作。工程师应持续进行实验、监控执行轨迹、拆分任务并调整 harness，因为随着模型能力的演进，harness 的组合空间也在不断变化。

原文链接：

https://www.infoq.com/news/2026/04/anthropic-three-agent-harness-ai/

创作场景

Anthropic 推出多代理 Harness，重构长时 AI 编程流程