写点什么

蚂蚁、人大联合发布首个原生 MoE 扩散语言模型,多项基测与 Qwen2.5-3B-Instruct 打平

  • 2025-09-12
    北京
  • 本文字数:1364 字

    阅读完需:约 4 分钟

大小:738.75K时长:04:12
蚂蚁、人大联合发布首个原生MoE扩散语言模型,多项基测与 Qwen2.5-3B-Instruct 打平

蚂蚁集团和人民大学联合研发原生 MoE 架构扩散语言模型(dLLM) LLaDA-MoE,在约 20T 数据上完成了从零训练 MoE 架构的扩散语言模型,验证了工业级大规模训练的扩展性和稳定性;效果超过此前发布稠密扩散语言模型 LLaDA1.0/1.5 和 Dream-7B,比肩等效自回归模型,并保有数倍的推理速度优势。模型将在近期完全开源,以推动全球 AI 社区在 dLLM 上的技术发展。

 

9 月 12 日,在 2025Inclusion·外滩大会上,蚂蚁集团与中国人民大学联合发布业界首个原生 MoE 架构的扩散语言模型(dLLM)“LLaDA-MoE”,中国人民大学高瓴人工智能学院副教授李崇轩,蚂蚁集团通用人工智能研究中心主任、西湖大学特聘研究员、西湖心辰创始人蓝振忠参与了发布仪式。



中国人民大学、蚂蚁集团联合发布首个 MoE 架构扩散模型 LLaDA-MoE


据介绍,这款新模型通过非自回归的掩码扩散机制,首次通过原生训练的 MoE 在大规模语言模型中实现了与 Qwen2.5 相当的语言智能(如上下文学习、指令遵循、代码和数学推理等),挑战了“语言模型必须自回归”的主流认知。

 

实时数据显示,LLaDA-MoE 模型性能效果在代码、数学、Agent 等任务上领先于 LLaDA1.0/1.5 和 Dream-7B 等扩散语言模型,接近或超越了自回归模型 Qwen2.5-3B-Instruct,仅激活 1.4B 参数即可实现等效 3B 稠密模型的性能。



LLaDA-MoE 性能表现


“LLaDA-MoE 模型验证了工业级大规模训练的扩展性和稳定性,意味我们在把 dLLM 训练扩到更大规模的路上又往前走了一步。”蓝振忠在发布现场表示。

 

中国人民大学高瓴人工智能学院副教授李崇轩介绍,“两年过去,AI 大模型能力突飞猛进,但存在一些问题始终没有得到本质上的解决。究其原因,这是当前大模型普遍采用的自回归生成范式所造成的——模型天然是单向建模的,从前往后依次生成下一个 token。这导致它们难以捕捉 tokens 之间的双向依赖关系。”

 

面对这些问题,一些研究者选择另辟蹊径,将目光投向并行解码的扩散语言模型。然而,现有 dLLM 均基于稠密架构,难以复刻 ARM 中 MoE 的“参数扩展、计算高效”优势。在这样的行业背景下,蚂蚁和人大联合研究团队,首次在 MoE 架构上推出了原生的扩散语言模型 LLaDA-MoE。

 

蓝振忠还表示,“我们将于近期向全球完全开源模型权重和自研推理框架,与社区共同推动 AGI 新一轮突破。”

 

据了解,蚂蚁与人大团队攻关 3 个月,在 LLaDA-1.0 基础上重写训练代码,并且基于蚂蚁自研分布式框架 ATorch 提供 EP 并行等一系列并行加速技术,基于蚂蚁 Ling2.0 基础模型的训练数据,在负载均衡、噪声采样漂移等核心难题上取得突破,最终采用 7B-A1B(总 7B、激活 1.4B)的 MoE 架构完成约 20T 数据的高效训练。

 

在蚂蚁自研的统一评测框架下,LLaDA-MoE 在 HumanEval、MBPP、GSM8K、MATH、IFEval、BFCL 等 17 项基准上平均提升 8.4%,领先 LLaDA-1.5 达到 13.2%,与 Qwen2.5-3B-Instruct 打平。实验再次验证“MoE 放大器”定律在 dLLM 领域同样成立,为后续 10B–100B 稀疏模型提供可行路径。

 

据蓝振忠介绍,除模型权重外,蚂蚁还将同步开源针对 dLLM 并行特性深度优化的推理引擎。相比 NVIDIA 官方 fast-dLLM,该引擎实现了显著加速。相关代码与技术报告将于近期在 GitHub 及 Hugging Face 社区同步发布。

 

蓝振忠还透露,蚂蚁将持续投入包括基于 dLLM 的 AGI 领域,下一阶段将联合学界和全球 AI 社区共同推动 AGI 新的突破。“自回归不是终点,扩散模型同样可以成为通向 AGI 的主干道。”蓝振忠如是说。

2025-09-12 10:3617
用户头像
李冬梅 加V:busulishang4668

发布了 1155 篇内容, 共 771.4 次阅读, 收获喜欢 1282 次。

关注

评论

发布
暂无评论

2024福建等保测评公司有哪些?分别叫做什么名字?

行云管家

等保 等保测评 福建

AI+财务丨以共享智能化为牵引,缔造全链路的无人值守能力

用友BIP

从打点平台谈打点治理

百度Geek说

数据质量 企业号 6 月 PK 榜 打点平台 打点治理

移动图形工作站有哪些价格实惠的推荐?

青椒云云电脑

图形工作站 移动图形工作站

实现全国算力互联互通,我们是认真的!

天翼云开发者社区

云计算 算力

从“数据孤岛”、Data Fabric(数据编织)谈逻辑数据平台

Aloudata

数据孤岛 数据虚拟化 Data Fabric 数据编织

直播预约丨《指标体系建设实战》第三期:指标平台功能架构及落地实践

袋鼠云数栈

指标体系 数据指标 指标 指标平台 指标建设

TiKV 源码分析之 PointGet

vivo互联网技术

TiKV PointGet

解决@LocalStorageProp值未更新问题的详细指南

彭康佳

android 华为 鸿蒙 ArxUI

旅游行业电商平台:数字化转型的引擎与未来发展趋势

天津汇柏科技有限公司

数字化转型 电商平台 旅游数智化

Apple vision pro空间计算,定义全新交互体验

AR玩家

AR AR眼镜 Rokid Vision pro 炬目AR

成就数智企业!用友BIP构建AI+全场景智能服务

用友BIP

首期“软件企业 AI 开发提效实战营”成功举办

阿里云云效

人工智能 阿里云 云原生

以 ZGC 为例,谈一谈 JVM 是如何实现 Reference 语义的

bin的技术小屋

ZGC JVM GC

用移动图形工作站做设计是种什么样的体验?

青椒云云电脑

图形工作站 移动图形工作站

selenium滑块解锁实现的研究

霍格沃兹测试开发学社

解决`LocalStorage.getShared()`返回undefined的问题

彭康佳

android 鸿蒙

文献解读-流行病学-第九期|《与Covid-19严重程度相关的免疫基因先天性缺陷的罕见变异》

INSVAST

基因数据分析 生信服务

如何将您的 API 管理从 Postman 迁移到 Apifox:详细步骤

Apifox

Postman Apifox API 接口工具 API 接口

首期“软件企业 AI 开发提效实战营”成功举办

阿里巴巴云原生

人工智能 阿里云 云原生

五月答谢 - 清凉礼包大派送,先到先得

Laval小助手

浅析Spring中Async注解底层异步线程池原理

得物技术

Java spring 企业号2024年6月PK榜

青椒云如何通过云桌面实现移动图形工作站

青椒云云电脑

图形工作站 移动图形工作站

IM跨平台技术学习(十一):环信基于Electron打包Web IM桌面端的技术实践

JackJiang

网络编程 即时通讯 IM

蚂蚁、人大联合发布首个原生MoE扩散语言模型,多项基测与 Qwen2.5-3B-Instruct 打平_生成式 AI_李冬梅_InfoQ精选文章