谷歌研究院探索多智能体协调的扩展原则

谷歌研究院通过对 180 种智能体配置进行对照评估，试图解答如何设计智能体系统以实现最优性能的问题。研究团队由此得出了他们所称的“AI 智能体系统首批定量扩展原则”，结果表明，多智能体协同并不能稳定提升效果，甚至可能降低性能。

研究作者称，该研究对多个普遍认可的观点提出了挑战：

从业者往往依赖经验法则，例如，默认“智能体越多越好”，认为增加专用智能体会持续提升效果。

而他们认为，这种优势仅适用于特定类型的任务，因为增加更多智能体通常会触及性能天花板，在某些情况下甚至会损害性能。

该研究评估了五种架构，包括单智能体、独立多智能体、集中调度、点对点以及混合系统，他们发现，可并行化任务（即工作可拆分为独立的模块）能从多智能体协同中显著获益。例如：

在金融推理等可并行化的任务中，集中式协同相比单智能体性能提升 80.9%。

反之，在PlanCraft这类顺序推理的任务中，引入多智能体往往会导致效果变差：

我们测试的所有多智能体变体性能均下降 39%–70%。在这类场景下，通信开销会割裂推理过程，导致实际任务没有足够的“认知预算”。

该研究还指出了工具使用的瓶颈，也就是当任务需要更多工具调用（如 API、网页操作及其他外部资源）时，协同成本会上升。这些成本可能超过多智能体系统带来的收益，并成为决定是否采用多智能体架构的关键因素。

另一项值得注意的发现是，如果错误没有被有约束地传播，独立智能体可能将错误放大约 17 倍。相比之下，集中式协同可将错误传播限制在约 4.4 倍，因为调度器会在传递结果前对其进行校验和管理。

最后，研究人员还开发了一个预测模型，用于选择合适的架构：

开发者无需猜测是使用集群智能体还是单个强大模型，而是可以根据任务特性做出有理论依据的工程决策，尤其是其顺序依赖关系与工具密集度。

该模型对约 87%的未见过的任务配置能正确识别最优方案，决定系数（R²）达到了 0.513。

在 Hacker News 上针对谷歌这项研究的讨论中，zkmon认为该研究缺乏坚实的理论基础，没有清晰解释为何某些架构会产生观测到的差异。同样，gopalv指出，虽然单智能体系统可能对错误不具备健壮性，但引入协调器未必是合适的解决方案：

我们发现调度器并非核心组件，核心是为每个动作配备专用评估器，在执行结束时将结果、目标与方法进行匹配，并向调度器反馈目标达成情况。

kioku则指出，通过使用协调器获得的 8%性能提升，可能不足以证明引入协同层所增加的复杂度与成本是合理的。