蚂蚁、人大联合发布首个原生MoE扩散语言模型，多项基测与 Qwen2.5-3B-Instruct 打平_生成式 AI_李冬梅

2天时间，聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情 



 写点什么



大小：738.75K时长：04:12

蚂蚁、人大联合发布首个原生MoE扩散语言模型，多项基测与 Qwen2.5-3B-Instruct 打平

蚂蚁集团和人民大学联合研发原生 MoE 架构扩散语言模型（dLLM) LLaDA-MoE，在约 20T 数据上完成了从零训练 MoE 架构的扩散语言模型，验证了工业级大规模训练的扩展性和稳定性；效果超过此前发布稠密扩散语言模型 LLaDA1.0/1.5 和 Dream-7B，比肩等效自回归模型，并保有数倍的推理速度优势。模型将在近期完全开源，以推动全球 AI 社区在 dLLM 上的技术发展。

9 月 12 日，在 2025Inclusion·外滩大会上，蚂蚁集团与中国人民大学联合发布业界首个原生 MoE 架构的扩散语言模型（dLLM）“LLaDA-MoE”，中国人民大学高瓴人工智能学院副教授李崇轩，蚂蚁集团通用人工智能研究中心主任、西湖大学特聘研究员、西湖心辰创始人蓝振忠参与了发布仪式。

中国人民大学、蚂蚁集团联合发布首个 MoE 架构扩散模型 LLaDA-MoE

据介绍，这款新模型通过非自回归的掩码扩散机制，首次通过原生训练的 MoE 在大规模语言模型中实现了与 Qwen2.5 相当的语言智能（如上下文学习、指令遵循、代码和数学推理等），挑战了“语言模型必须自回归”的主流认知。

实时数据显示，LLaDA-MoE 模型性能效果在代码、数学、Agent 等任务上领先于 LLaDA1.0/1.5 和 Dream-7B 等扩散语言模型，接近或超越了自回归模型 Qwen2.5-3B-Instruct，仅激活 1.4B 参数即可实现等效 3B 稠密模型的性能。

LLaDA-MoE 性能表现

“LLaDA-MoE 模型验证了工业级大规模训练的扩展性和稳定性，意味我们在把 dLLM 训练扩到更大规模的路上又往前走了一步。”蓝振忠在发布现场表示。

中国人民大学高瓴人工智能学院副教授李崇轩介绍，“两年过去，AI 大模型能力突飞猛进，但存在一些问题始终没有得到本质上的解决。究其原因，这是当前大模型普遍采用的自回归生成范式所造成的——模型天然是单向建模的，从前往后依次生成下一个 token。这导致它们难以捕捉 tokens 之间的双向依赖关系。”

面对这些问题，一些研究者选择另辟蹊径，将目光投向并行解码的扩散语言模型。然而，现有 dLLM 均基于稠密架构，难以复刻 ARM 中 MoE 的“参数扩展、计算高效”优势。在这样的行业背景下，蚂蚁和人大联合研究团队，首次在 MoE 架构上推出了原生的扩散语言模型 LLaDA-MoE。

蓝振忠还表示，“我们将于近期向全球完全开源模型权重和自研推理框架，与社区共同推动 AGI 新一轮突破。”

据了解，蚂蚁与人大团队攻关 3 个月，在 LLaDA-1.0 基础上重写训练代码，并且基于蚂蚁自研分布式框架 ATorch 提供 EP 并行等一系列并行加速技术，基于蚂蚁 Ling2.0 基础模型的训练数据，在负载均衡、噪声采样漂移等核心难题上取得突破，最终采用 7B-A1B（总 7B、激活 1.4B）的 MoE 架构完成约 20T 数据的高效训练。

在蚂蚁自研的统一评测框架下，LLaDA-MoE 在 HumanEval、MBPP、GSM8K、MATH、IFEval、BFCL 等 17 项基准上平均提升 8.4%，领先 LLaDA-1.5 达到 13.2%，与 Qwen2.5-3B-Instruct 打平。实验再次验证“MoE 放大器”定律在 dLLM 领域同样成立，为后续 10B–100B 稀疏模型提供可行路径。

据蓝振忠介绍，除模型权重外，蚂蚁还将同步开源针对 dLLM 并行特性深度优化的推理引擎。相比 NVIDIA 官方 fast-dLLM，该引擎实现了显著加速。相关代码与技术报告将于近期在 GitHub 及 Hugging Face 社区同步发布。

蓝振忠还透露，蚂蚁将持续投入包括基于 dLLM 的 AGI 领域，下一阶段将联合学界和全球 AI 社区共同推动 AGI 新的突破。“自回归不是终点，扩散模型同样可以成为通向 AGI 的主干道。”蓝振忠如是说。

发布

暂无评论

创作场景

蚂蚁、人大联合发布首个原生 MoE 扩散语言模型，多项基测与 Qwen2.5-3B-Instruct 打平

评论

架构师训练营第四周【作业】

大型互联网应用解决问题的技术方案和手段

架构学习第四周作业

架构师训练营第四周学习总结

【架构师第四周】总结

第四周感想

学习总结 - 架构师训练营 - 第四周

第4周总结

大型互联网应用系统浅析

架构师训练营第 0 期第四周作业

从软件架构演进“看”做好事情的三条边

架构师训练营 - 学习笔记 - 第四周

写给大忙人看的进程和线程

一个典型的大型互联网应用系统使用了哪些技术方案和手段，主要解决什么问题？请列举描述。

软件测试缺陷等级划分准则

第四章作业

互联网系统架构

week4.学习总结

第 04 周作业提交

互联网系统的问题与方案 - 第四周作业

第四周作业

第四周作业

【架构师第四周作业】

一个典型的大型互联网应用系统使用了哪些技术

大型互联网应用系统使用的方案

大型互联网应用系统案例

面向对象学习

架构师训练营第四周作业

第4周作业

架构师训练营 - 第四周 - 作业

Week 04- 作业一：一个典型的大型互联网应用系统使用了哪些技术方案和手段

创作场景

蚂蚁、人大联合发布首个原生 MoE 扩散语言模型，多项基测与 Qwen2.5-3B-Instruct 打平

评论

电子书

大厂实战PPT下载