2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

蚂蚁、人大联合发布首个原生 MoE 扩散语言模型,多项基测与 Qwen2.5-3B-Instruct 打平

  • 2025-09-12
    北京
  • 本文字数:1364 字

    阅读完需:约 4 分钟

大小:738.75K时长:04:12
蚂蚁、人大联合发布首个原生MoE扩散语言模型,多项基测与 Qwen2.5-3B-Instruct 打平

蚂蚁集团和人民大学联合研发原生 MoE 架构扩散语言模型(dLLM) LLaDA-MoE,在约 20T 数据上完成了从零训练 MoE 架构的扩散语言模型,验证了工业级大规模训练的扩展性和稳定性;效果超过此前发布稠密扩散语言模型 LLaDA1.0/1.5 和 Dream-7B,比肩等效自回归模型,并保有数倍的推理速度优势。模型将在近期完全开源,以推动全球 AI 社区在 dLLM 上的技术发展。

 

9 月 12 日,在 2025Inclusion·外滩大会上,蚂蚁集团与中国人民大学联合发布业界首个原生 MoE 架构的扩散语言模型(dLLM)“LLaDA-MoE”,中国人民大学高瓴人工智能学院副教授李崇轩,蚂蚁集团通用人工智能研究中心主任、西湖大学特聘研究员、西湖心辰创始人蓝振忠参与了发布仪式。



中国人民大学、蚂蚁集团联合发布首个 MoE 架构扩散模型 LLaDA-MoE


据介绍,这款新模型通过非自回归的掩码扩散机制,首次通过原生训练的 MoE 在大规模语言模型中实现了与 Qwen2.5 相当的语言智能(如上下文学习、指令遵循、代码和数学推理等),挑战了“语言模型必须自回归”的主流认知。

 

实时数据显示,LLaDA-MoE 模型性能效果在代码、数学、Agent 等任务上领先于 LLaDA1.0/1.5 和 Dream-7B 等扩散语言模型,接近或超越了自回归模型 Qwen2.5-3B-Instruct,仅激活 1.4B 参数即可实现等效 3B 稠密模型的性能。



LLaDA-MoE 性能表现


“LLaDA-MoE 模型验证了工业级大规模训练的扩展性和稳定性,意味我们在把 dLLM 训练扩到更大规模的路上又往前走了一步。”蓝振忠在发布现场表示。

 

中国人民大学高瓴人工智能学院副教授李崇轩介绍,“两年过去,AI 大模型能力突飞猛进,但存在一些问题始终没有得到本质上的解决。究其原因,这是当前大模型普遍采用的自回归生成范式所造成的——模型天然是单向建模的,从前往后依次生成下一个 token。这导致它们难以捕捉 tokens 之间的双向依赖关系。”

 

面对这些问题,一些研究者选择另辟蹊径,将目光投向并行解码的扩散语言模型。然而,现有 dLLM 均基于稠密架构,难以复刻 ARM 中 MoE 的“参数扩展、计算高效”优势。在这样的行业背景下,蚂蚁和人大联合研究团队,首次在 MoE 架构上推出了原生的扩散语言模型 LLaDA-MoE。

 

蓝振忠还表示,“我们将于近期向全球完全开源模型权重和自研推理框架,与社区共同推动 AGI 新一轮突破。”

 

据了解,蚂蚁与人大团队攻关 3 个月,在 LLaDA-1.0 基础上重写训练代码,并且基于蚂蚁自研分布式框架 ATorch 提供 EP 并行等一系列并行加速技术,基于蚂蚁 Ling2.0 基础模型的训练数据,在负载均衡、噪声采样漂移等核心难题上取得突破,最终采用 7B-A1B(总 7B、激活 1.4B)的 MoE 架构完成约 20T 数据的高效训练。

 

在蚂蚁自研的统一评测框架下,LLaDA-MoE 在 HumanEval、MBPP、GSM8K、MATH、IFEval、BFCL 等 17 项基准上平均提升 8.4%,领先 LLaDA-1.5 达到 13.2%,与 Qwen2.5-3B-Instruct 打平。实验再次验证“MoE 放大器”定律在 dLLM 领域同样成立,为后续 10B–100B 稀疏模型提供可行路径。

 

据蓝振忠介绍,除模型权重外,蚂蚁还将同步开源针对 dLLM 并行特性深度优化的推理引擎。相比 NVIDIA 官方 fast-dLLM,该引擎实现了显著加速。相关代码与技术报告将于近期在 GitHub 及 Hugging Face 社区同步发布。

 

蓝振忠还透露,蚂蚁将持续投入包括基于 dLLM 的 AGI 领域,下一阶段将联合学界和全球 AI 社区共同推动 AGI 新的突破。“自回归不是终点,扩散模型同样可以成为通向 AGI 的主干道。”蓝振忠如是说。

2025-09-12 10:367348
用户头像
李冬梅 加V:busulishang4668

发布了 1200 篇内容, 共 823.9 次阅读, 收获喜欢 1311 次。

关注

评论

发布
暂无评论

架构师训练营 第四周【作业】

小K

大型互联网应用解决问题的技术方案和手段

GAC·DU

架构学习第四周作业

云峰

架构师训练营 第四周 学习总结

RZC

【架构师第四周】总结

浪浪

第四周感想

数字

学习总结 - 架构师训练营 - 第四周

走过路过飞过

第4周总结

娄江国

极客大学架构师训练营

大型互联网应用系统浅析

飞雪

架构师训练营第 0 期第四周作业

无名氏

从软件架构演进“看”做好事情的三条边

学习 架构模式 极客大学架构师训练营 架构演进 三条边

架构师训练营 - 学习笔记 - 第四周

小遵

写给大忙人看的进程和线程

苹果看辽宁体育

后端 操作系统

一个典型的大型互联网应用系统使用了哪些技术方案和手段,主要解决什么问题?请列举描述。

娄江国

极客大学架构师训练营

软件测试缺陷等级划分准则

海浪豆豆

软件测试

第四章作业

小胖子

互联网系统架构

陈皮

week4.学习总结

个人练习生niki👍

第 04 周作业提交

白杨

互联网系统的问题与方案 - 第四周作业

X﹏X

第四周作业

changtai

极客大学架构师训练营

第四周作业

数字

【架构师第四周作业】

浪浪

一个典型的大型互联网应用系统使用了哪些技术

L001

极客大学架构师训练营

大型互联网应用系统使用的方案

ashuai1106

架构师 极客大学架构师训练营

大型互联网应用系统案例

戴维斯

极客大学架构师训练营

面向对象学习

一叶知秋

架构师训练营第四周作业

fenix

第4周作业

架构师训练营 - 第四周 - 作业

Anrika

极客大学架构师训练营

Week 04- 作业一:一个典型的大型互联网应用系统使用了哪些技术方案和手段

dean

极客大学架构师训练营

蚂蚁、人大联合发布首个原生MoE扩散语言模型,多项基测与 Qwen2.5-3B-Instruct 打平_生成式 AI_李冬梅_InfoQ精选文章