企业级多智能体(Multi-Agent)系统最大的瓶颈,往往不是 Agent 不够强,而是负责分发任务的 Router(路由器)太“傻”。传统 Router 只会做简单的单选分类,面对复杂的企业级故障经常“瞎指挥”,在企业运维的十字路口,我们需要一个更聪明的“交警”。
过去一年里,Multi-Agent 架构正在成为企业 AI 的新基建。我们忙着造更强的 SQLAgent、更快的检索 Agent,但却发现运维系统的十字路口却越来越拥堵了。
和想象中的 Agent 们“游刃有余”的自动协同、分工协作不同,因为传统 Router 的上限太低、智能程度有限,很难跟上 Agent 们“匆匆忙忙”的脚步。在未来的企业 AI 系统中,Agent 越来越多,能力边界越来越模糊,系统必须具备“承认不确定性并协作解决”的能力。
今天,腾讯云正式开源 TCAR(Tencent Cloud Andon Router)——一个只有 4B 参数,但学会了“先想清楚,再选择”的智能路由模型,它专为解决跨域、冲突和模糊问题而生,为企业 AI 应用提供 Reasoning-centric Routing+Multi-Agent Collaboration 的基础形态。
为什么传统 Router 在企业运维场景里“玩不转”了?
这里可以看几个非常常见的场景:
1、不同 agent 可能能解决一样的问题,传统 Router 通常为单标签分类,只考虑选择一个 agent,导致无法给出最优解决方案。

2、新业务、新 Agent 随时上线,传统 Router 对这些“新同事”完全不了解,需重新训练,也就无法快速分配给他们最合适的工作。

3、用户描述模糊、不完整。例如用户提到“网站访问延时”,传统 Router 就无法确定不确定是 CDN、COS 还是网络的问题。

4、传统 Router 缺乏可解释性,黑盒决策,一旦路由错了,没法快速修复 badcase,后面 Agent 再强也救不回来。

总结来说,传统 Router 面对企业场景有三大硬伤:搞不定跨域、解不了冲突、跟不上变化。
TCAR 的解法:像人类专家一样“先想后做”
TCAR(TencentCloudAndonRouter)的核心很简单,但在 Router 中几乎没人认真做过——把路由从直接预测标签,变成先推理再选择 Agent 集合。这时候,Router 不再是一个收发任务的转接系统,而是变成了一个具备推理能力的“决策者”。它把路由过程从单项选择变成了“写分析报告+组建任务组”;它的工作职能从挑选队列最前面的 agent 完成任务,到在专家梯队中找到最合适的那个人选来完成任务。
它就像是一个拥有顶尖专家团队的,高度聪明且能够自我决策的“项目经理”。
能力一:Reason-then-Select(拒绝黑盒,把思考过程写出来)

TCAR 在输出 Agent 之前,会先生成一段自然语言推理链,明确说明问题可能涉及哪些技术栈,不同 Agent 的职责边界,为什么多个 Agent 执行是合理的,这让路由不再是黑盒,而是可解释、可 Debug、可持续优化 Agent 描述。
能力二:从单挑到团战

在 TCAR 中路由结果不再是 one-hot,而是一个 Agent 子集,这一步直接解决了企业系统中最棘手的 Agent 冲突问题:不强行压缩决策,而是保留不确定性,交给后续协作解决。当然,这也要建立在对指令聪明且充分的理解力上。
能力三:专家会诊,择优输出

当 TCAR 选出多个候选 Agent 后,每个 Agent 独立给出自己的专业答案,而后由一个 RefiningAgent 负责对比、消歧、融合,最终输出一个完整、无冲突的答案,这套模式在排障类问题上效果尤其明显。
覆盖全面、命中精准,硬核且强大
TCAR 不是一个简单的 Prompt 工程产物,为了让它具备上述能力,我们做了两件比较特别的事情:
一是两阶段训练+特殊融合,兼顾推理能力和选择精度。
阶段一 SFT(监督微调):教会模型结构化推理,学会输出 Agent 集合,通过 Slerp 方法融合模型。
阶段二 RL(强化学习/DAPO):重点调教模型“选得对不对”。
二是专门针对多 Agent 设计奖励函数,把路由当成一个集合预测问题,在模型覆盖率和精确度之间形成稳定平衡。
R1 奖励(类似精确率 Precision):你选出来的 Agent 里,有多少是真正干活的?(防止选了一堆没用的配角)
R2 奖励(类似召回率 Recall):关键的那几个 Agent,你有没有漏掉?(防止漏掉主角)
长度惩罚:防止模型为了求稳把所有 Agent 全选上。
最后,经过 CLINC150、HWU64、MINDS14、SGD、Qcloud 五个数据集的评测,TCAR 在企业高冲突数据上全面超过当前主流大模型 Router,在高歧义、跨域问题中更稳定,4B 参数量推理速度快成本低,更重要的是下游多 Agent + Refining Agent 的整体成功率显著提升。
腾讯云还提供了全套的完整开源范式,包括:TCAR 路由模型(4B)、Prompt 规范(Router / Refining Agent)、训练方法与实验细节、可直接落地的多 Agent 路由范式。
相关链接:
HuggingFace:https://huggingface.co/tencent/TCAndon-Router
GitHub:https://github.com/Tencent/TCAndon-Router
Paper:https://arxiv.org/pdf/2601.04544





