月之暗面科技发布 Kimi K2.5,这是其最新的开源多模态大语言模型。K2.5 在代码任务上表现优异,基准测试成绩可与 GPT‑5、Gemini 等前沿模型相媲美。该模型还支持智能体集群模式,能够调度多达 100 个子智能体,以并行工作流解决复杂问题。
Kimi K2.5 基于前代 Kimi K2 MoE 大语言模型构建。新模型在纯文本能力的基础上新增了视觉功能,结合其出色的代码能力,在前端开发任务中表现优异。该模型支持四种运行模式:即时模式(Instant)、思考模式(Thinking)、智能体模式(Agent)和智能体群模式(Agent Swarm)。其中智能体群模式目前为研究预览版,可将任务拆解为子任务,由多个子智能体并行执行。智能体模式则专为办公生产力场景设计,支持生成文档和电子表格。据月之暗面科技表示:
凭借在视觉编码、智能体集群与办公生产力领域的突破,Kimi K2.5 标志着开源社区向 AGI 迈出了重要一步,在现实约束条件下展现出强大的实际任务处理能力。展望未来,我们将继续探索智能体智能的前沿边界,重新定义 AI 在知识工作领域的价值与可能。
Kimi K2.5 集成了月之暗面 MoonViT-3D 视觉编码器,对 Kimi K2 架构进行了扩展。团队以 Kimi K2 的检查点为基础,新增 15T Token 数据继续预训练,随后完成了监督微调与强化学习。
针对智能体群功能,月之暗面团队开发了一种新的强化学习技术——并行智能体强化学习(PARL),用于训练 Kimi K2.5 对复杂任务进行分解与并行处理。PARL 旨在解决三大挑战:训练不稳定、信用分配不清晰以及“串行崩溃”问题(即协调器仅运行单个智能体)。在 PARL 框架下,子智能体参数保持冻结,仅训练协调器,奖励函数则激励子智能体的创建与子任务的顺利完成。
月之暗面团队在多项基准测试中对 Kimi K2.5 进行了评估。针对智能体群能力,他们采用 BrowseComp 和 WideSearch 来评估研究和信息检索能力。在 BrowseComp 上,Kimi K2.5 超越了 GPT-5.2 Pro;在 WideSearch 上,超越了 Claude Opus 4.5。得益于并行执行,它还“显著地缩短了实际耗时”。月之暗面团队还提到,智能体群具备“主动上下文控制”能力,可降低上下文溢出的风险,在无需上下文摘要的情况下有效扩展整体上下文长度。
吴恩达在 The Batch 通讯中点评了 Kimi K2.5,他表示:
构建智能体工作流能够提升模型在特定任务上的性能。与预定义的智能体工作流不同,Kimi K2.5 可自主判断何时需要创建新的子智能体、子智能体应执行的任务以及何时将工作委托给它。这种自动化的智能体编排显著提升了可并行执行任务的效率。Kimi K2.5 将任务执行从思维链推理升级为智能体团队协作,它不再按顺序响应提示,而是作为独立工作流与模型的管理者,并行执行任务的不同环节。
用户可通过网页版聊天界面或 月之暗面的 API 来使用 Kimi K2.5。模型权重 可在 Huggingface 上获取。
原文链接:





