JetBrains 近期宣布开源 Mellum2,这是一款拥有 120 亿参数的编程模型,主要面向智能体 AI 系统的基础设施层——包括路由、检索管道和子智能体任务——以及私有本地部署场景,这是 Claude Code 及其同类产品无法触及的领域。
这是 Mellum 的后续版本。Mellum 是 JetBrains 于 2024 年底推出的 40 亿参数模型,最初作为其自有 IDE 的专属代码补全工具,后于 2025 年 4 月开源。但与之前不同的是,Mellum2 从发布第一天起就是开放的。
值得注意的是,Mellum2 的定位也发生了显著变化。如果说 Mellum 只做一件事——代码补全——那么 Mellum2 则是为工程团队部署 AI 所需的广泛任务而构建:协调多个模型、处理子智能体工作负载、在检索管道中压缩上下文,以及在团队自主控制的基础设施上运行推理。
在一篇由高级研究工程师 Nikita Pavlichenko 和产品经理 Anton Semenkin 联合撰写的博客文章中,Mellum2 被定义为一款“聚焦型模型”——主打高效专精,不去和顶尖大模型比拼通用能力。
“前沿模型将继续突破极限,但实用的 AI 产品离不开聚焦型模型:快速、专业的组件,高效处理高频任务,”他们写道。“这种专业化设计确保模型在软件工程环境中表现出色,同时保持轻量和高速度。”
此外,该基础模型还有两个后训练变体:“指令”版本可以直接回答问题,“思考”版本在回答前生成显式的推理过程,面向更难的多步骤和智能体任务。
Mellum2 采用混合专家(MoE)架构,总参数量 120 亿,但每个词元仅激活 25 亿参数。这种设计将每个词元路由给 64 个专家模型的子集,而非整个网络,从而在保持模型整体容量的同时实现快速推理。
在技术报告里,JetBrains 基于单张 H100 GPU 选用贴合真实生产代码补全负载的输入、输出数据,对 Mellum2、阿里 Qwen2.5-7B 和 Qwen3-8B 进行了基准性能测试。
在单请求模式下,Mellum2 的性能与 Qwen2.5-7B 几乎持平——每秒 192 词元对 193 词元。而在并发负载下——即生产部署的实际运行场景中—— Mellum2 比 Qwen2.5-7B 高出 21%,比 Qwen3-8B 高出 79%。
成本方面的表现同理。由于每个词元仅激活 25 亿参数,该架构在推理层面的表现更接近 25 亿参数模型,而非传统的 120 亿参数稠密模型——这对于每天将其作为更大智能体系统的一部分、路由大量请求的团队来说至关重要。
在功能级代码生成方面,以结合 HumanEval+ 和 MBPP+ 的 EvalPlus 基准进行评测,Mellum2 的思考版本得分 78.4%——优于参测的其余模型,其中 Qwen3.5-9B 得分 71.8%、代码专项模型 Seed-Coder-8B 得分 73.8%。
不过,当评测范围跳出软件工程相关任务后,对比结果就出现分化。JetBrains 自测数据表明,Qwen3.5-9B 在 GPQA Diamond、MMLU-Redux 等通用推理与知识类测评中依旧更占优势。
JetBrains 在技术报告中承认了这一点,并表示模型训练方向高度专精需要付出相应的代价。
“这一差距源于我们在训练资源分配上刻意侧重代码与开发文档,而非广泛的百科知识覆盖,”作者写道。
也许,Mellum2 的优势在于它不需要依赖其他东西。Anthropic 的 Claude Code 和 OpenAI 的 Codex 虽然在客户端本地运行,但推理仍通过 Anthropic 和 OpenAI 的 API 路由。
Cursor 也在尝试自己的专有编程模型策略,最近推出了 Composer 2.5。这些能力仍与 Cursor 的平台绑定,而该公司最近宣布与 SpaceX 的 xAI 合作,又将技术栈的另一个关键层——基础设施和未来模型开发——置于用户的可控范围之外。
Mellum2 基于 Apache 2.0 许可协议开源权重,企业可自主选择本地化运行。Mellum2 能否在企业规模上获得认可,将取决于企业对自托管 AI 基础设施的接受程度。
JetBrains 押注的是,随着 AI 更深入地融入软件工程工作流,部署灵活性、运营控制权和所有权仍将是企业的重要考量。这是一个合理的赌注——但能否在大规模场景中落地验证,尚且有待时间检验。
Mellum2 现已上线 Hugging Face(https://huggingface.co/collections/JetBrains/mellum-2),基础模型、指令模型和思考模型检查点均基于 Apache 2.0 许可发布,同时附带完整的技术报告,详细说明了架构决策和训练流程。
【声明:本文由 InfoQ 翻译,未经许可禁止转载。】
原文链接:https://thenewstack.io/jetbrains-mellum2-open-source-coding-model/





