写点什么

推理性能提升 10 倍!蚂蚁集团开源业内首个高性能扩散语言模型推理框架 dInfer

  • 2025-10-13
    北京
  • 本文字数:1001 字

    阅读完需:约 3 分钟

大小:521.80K时长:02:58
推理性能提升10倍!蚂蚁集团开源业内首个高性能扩散语言模型推理框架dInfer

10 月 13 日,蚂蚁集团正式开源业界首个高性能扩散语言模型推理框架 dInfer。

 

在基准测试中,dInfer 将扩散语言模型的推理速度相比于英伟达扩散模型框架 Fast-dLLM 提升了 10.7 倍;在代码生成任务 HumanEval 上,dInfer 在单批次推理中创造了 1011Tokens/秒的速度,首次在开源社区中实现扩散语言模型的单批次推理速度显著超越自回归模型。dInfer 的工作表明,扩散语言模型具备显著的效率潜力,可以通过系统性的创新工程兑现,为通往 AGI 的架构路径提供极具竞争力的选项。

 

扩散语言模型,作为一种全新的范式将文本生成视为一个“从随机噪声中逐步恢复完整序列”的去噪过程,具有高度并行、全局视野、结构灵活三大优势。


凭借这些优势,以蚂蚁集团和人大发布的 LLaDA-MoE 为代表的模型已在多个基准测试中,展现出与顶尖 AR 模型相媲美的准确性 。然而在推理效率方面,dLLM 理论上的强大潜能,却长期被残酷的现实“枷锁”所束缚。dLLM 的高效推理面临计算成本高、KV 缓存失效、并行解码三大挑战。这些瓶颈使得扩散语言模型的推理速度一直不尽人意,如何打破枷锁释放扩散语言模型在推理效率上的潜能,成为整个领域亟待解决的难题。



dInfer 是一款专为扩散语言模型设计的、算法与系统深度协同的高性能推理框架 ,可支持多种扩散语言模型,包括 LLaDA、 LLaDA-MoE、LLaDA-MoE-TD 等。


dInfer 包含四大核心模块:模型接入(Model)、KV 缓存管理器(KV-Cache Manager),扩散迭代管理器(Iteration Manager),和解码策略(Decoder)。这种可插拔的架构,允许开发者像搭乐高一样,进一步组合和探索不同模块的优化策略,并在统一的平台上进行标准化评测 。更重要的是,dInfer 针对上述三大挑战,在每个模块中都集成了针对性的解决方案。


在配备 8 块 NVIDIA H800 GPU 的节点上,dInfer 的性能表现令人瞩目:

 

在与先前的 dLLM 推理方案 Fast-dLLM 的对比中,dInfer 在模型效果持平的情况下,平均推理速度(avg TPS)实现了 10.7 倍的巨大提升(681 vs 63.6) ;在代码生成任务 HumanEval 上,dInfer 在单批次推理中创造了 1011 tokens/秒的速度 ;与在业界顶尖的推理服务框架 vLLM 上运行的、参数量和性能相当的 AR 模型 Qwen2.5-3B 相比,dInfer 的平均推理速度是其 2.5 倍(681 vs 277) 。

 

蚂蚁集团介绍,dInfer 连接了前沿研究与产业落地,标志着扩散语言模型从“理论可行”迈向“实践高效”的关键一步。此次开预案,也是诚邀全球的开发者与研究者共同探索扩散语言模型的巨大潜能,构建更加高效、开放的 AI 新生态。

2025-10-13 16:384173
用户头像
李冬梅 加V:busulishang4668

发布了 1202 篇内容, 共 826.1 次阅读, 收获喜欢 1312 次。

关注

评论

发布
暂无评论

工作中对InheritableThreadLocal使用的思考

京东科技开发者

浅谈API错误码设计

京东科技开发者

设计视角剖析产品需求评审的创新性透视

inBuilder低代码平台

产品 设计 需求评审

成功迁移客户推荐|ONES 的迁移能力和服务专业性值得信赖!

万事ONES

项目管理 研发管理工具ONES

“AI+Security”系列第4期(二):LLM辅助的模糊测试增强技术

云起无垠

【YashanDB知识库】使用vmware虚拟机安装的YashanDB,本机无法访问

YashanDB

数据库 yashandb

【YashanDB知识库】密码带特殊符号登录报错YAS-02143 invalid username/password, login denied

YashanDB

数据库 yashandb

Selenium自动化防爬技巧:从入门到精通,保障爬虫稳定运行

小白的大数据之旅

爬虫 反爬策略 反爬虫 爬虫实战

Native Instruments Kontakt 7 for Mac(强大音频采样器)v7.7.3激活版

小玖_苹果Mac软件

Java高频面试题(2025最新含答案)

Geek_Yin

Java 程序员 java面试 Java面试题 Java面试八股文

iZotope RX 8 Advanced for mac (专业音频修复)v8.1.0永久激活版

小玖_苹果Mac软件

谷云科技数据集成社区焕新登场:功能、资源、会员权益全面升级

谷云科技RestCloud

ETL 集成社区

ONES 联合中国信通院权威发布《企业级研发管理系统迁移指南》

万事ONES

项目管理 研发管理 研发管理工具ONES

【YashanDB知识库】安装过程报错: unable to authenticate, attempted methods [none password], no supported methods remain

YashanDB

数据库 yashandb

探讨篇(三):代码复用的智慧 - 提升架构的效率与可维护性

京东科技开发者

FTX 创始人会因总统赦免而提前出狱吗?

TechubNews

【YashanDB知识库】yasql / as sysdba无法登录

YashanDB

数据库 yashandb

【YashanDB知识库】启动yasom时报错:sqlite connection error

YashanDB

数据库 yashandb

关于Mysql查询的那些事儿

伤感汤姆布利柏

双重殊荣|博睿数据荣获“2024中国大数据产业年度趋势人物奖”、“2024中国大数据产业年度创新技术突破奖”

博睿数据

Bonree ONE获奖案例 | 恭喜智己汽车、中顺洁柔获得IT168“2024年度创新解决方案奖”

博睿数据

Bonree ONE获奖案例 |恭喜华福证券荣获经观“年度卓越研究创新证券公司奖”

博睿数据

微店API接口深度解析:如何高效获取商品详情与店铺所有商品数据

代码忍者

微店商品详情API接口 微店商品列表API

Java面试八股文(20w字)

Geek_Yin

Java 面试 #java #程序员 #Java面试题 #Java面试八股文

京东按图搜索京东商品(拍立淘)API接口的开发、应用与收益

科普小能手

数据挖掘 电商 京东 API 接口 跨境电商运营

推理性能提升10倍!蚂蚁集团开源业内首个高性能扩散语言模型推理框架dInfer_生成式 AI_李冬梅_InfoQ精选文章