谷歌研究院通过对 180 种智能体配置进行对照评估,试图解答如何设计智能体系统以实现最优性能的问题。研究团队由此得出了他们所称的“AI 智能体系统首批定量扩展原则”,结果表明,多智能体协同并不能稳定提升效果,甚至可能降低性能。
研究作者称,该研究对多个普遍认可的观点提出了挑战:
从业者往往依赖经验法则,例如,默认“智能体越多越好”,认为增加专用智能体会持续提升效果。
而他们认为,这种优势仅适用于特定类型的任务,因为增加更多智能体通常会触及性能天花板,在某些情况下甚至会损害性能。
该研究评估了五种架构,包括单智能体、独立多智能体、集中调度、点对点以及混合系统,他们发现,可并行化任务(即工作可拆分为独立的模块)能从多智能体协同中显著获益。例如:
在金融推理等可并行化的任务中,集中式协同相比单智能体性能提升 80.9%。
反之,在PlanCraft这类顺序推理的任务中,引入多智能体往往会导致效果变差:
我们测试的所有多智能体变体性能均下降 39%–70%。在这类场景下,通信开销会割裂推理过程,导致实际任务没有足够的“认知预算”。
该研究还指出了工具使用的瓶颈,也就是当任务需要更多工具调用(如 API、网页操作及其他外部资源)时,协同成本会上升。这些成本可能超过多智能体系统带来的收益,并成为决定是否采用多智能体架构的关键因素。
另一项值得注意的发现是,如果错误没有被有约束地传播,独立智能体可能将错误放大约 17 倍。相比之下,集中式协同可将错误传播限制在约 4.4 倍,因为调度器会在传递结果前对其进行校验和管理。
最后,研究人员还开发了一个预测模型,用于选择合适的架构:
开发者无需猜测是使用集群智能体还是单个强大模型,而是可以根据任务特性做出有理论依据的工程决策,尤其是其顺序依赖关系与工具密集度。
该模型对约 87%的未见过的任务配置能正确识别最优方案,决定系数(R²)达到了 0.513。
在 Hacker News 上针对谷歌这项研究的讨论中,zkmon认为该研究缺乏坚实的理论基础,没有清晰解释为何某些架构会产生观测到的差异。同样,gopalv指出,虽然单智能体系统可能对错误不具备健壮性,但引入协调器未必是合适的解决方案:
我们发现调度器并非核心组件,核心是为每个动作配备专用评估器,在执行结束时将结果、目标与方法进行匹配,并向调度器反馈目标达成情况。
kioku则指出,通过使用协调器获得的 8%性能提升,可能不足以证明引入协同层所增加的复杂度与成本是合理的。
查看英文原文:Google Explores Scaling Principles for Multi-agent Coordination





