50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

推理性能提升 10 倍!蚂蚁集团开源业内首个高性能扩散语言模型推理框架 dInfer

  • 2025-10-13
    北京
  • 本文字数:1001 字

    阅读完需:约 3 分钟

大小:521.80K时长:02:58
推理性能提升10倍!蚂蚁集团开源业内首个高性能扩散语言模型推理框架dInfer

10 月 13 日,蚂蚁集团正式开源业界首个高性能扩散语言模型推理框架 dInfer。

 

在基准测试中,dInfer 将扩散语言模型的推理速度相比于英伟达扩散模型框架 Fast-dLLM 提升了 10.7 倍;在代码生成任务 HumanEval 上,dInfer 在单批次推理中创造了 1011Tokens/秒的速度,首次在开源社区中实现扩散语言模型的单批次推理速度显著超越自回归模型。dInfer 的工作表明,扩散语言模型具备显著的效率潜力,可以通过系统性的创新工程兑现,为通往 AGI 的架构路径提供极具竞争力的选项。

 

扩散语言模型,作为一种全新的范式将文本生成视为一个“从随机噪声中逐步恢复完整序列”的去噪过程,具有高度并行、全局视野、结构灵活三大优势。


凭借这些优势,以蚂蚁集团和人大发布的 LLaDA-MoE 为代表的模型已在多个基准测试中,展现出与顶尖 AR 模型相媲美的准确性 。然而在推理效率方面,dLLM 理论上的强大潜能,却长期被残酷的现实“枷锁”所束缚。dLLM 的高效推理面临计算成本高、KV 缓存失效、并行解码三大挑战。这些瓶颈使得扩散语言模型的推理速度一直不尽人意,如何打破枷锁释放扩散语言模型在推理效率上的潜能,成为整个领域亟待解决的难题。



dInfer 是一款专为扩散语言模型设计的、算法与系统深度协同的高性能推理框架 ,可支持多种扩散语言模型,包括 LLaDA、 LLaDA-MoE、LLaDA-MoE-TD 等。


dInfer 包含四大核心模块:模型接入(Model)、KV 缓存管理器(KV-Cache Manager),扩散迭代管理器(Iteration Manager),和解码策略(Decoder)。这种可插拔的架构,允许开发者像搭乐高一样,进一步组合和探索不同模块的优化策略,并在统一的平台上进行标准化评测 。更重要的是,dInfer 针对上述三大挑战,在每个模块中都集成了针对性的解决方案。


在配备 8 块 NVIDIA H800 GPU 的节点上,dInfer 的性能表现令人瞩目:

 

在与先前的 dLLM 推理方案 Fast-dLLM 的对比中,dInfer 在模型效果持平的情况下,平均推理速度(avg TPS)实现了 10.7 倍的巨大提升(681 vs 63.6) ;在代码生成任务 HumanEval 上,dInfer 在单批次推理中创造了 1011 tokens/秒的速度 ;与在业界顶尖的推理服务框架 vLLM 上运行的、参数量和性能相当的 AR 模型 Qwen2.5-3B 相比,dInfer 的平均推理速度是其 2.5 倍(681 vs 277) 。

 

蚂蚁集团介绍,dInfer 连接了前沿研究与产业落地,标志着扩散语言模型从“理论可行”迈向“实践高效”的关键一步。此次开预案,也是诚邀全球的开发者与研究者共同探索扩散语言模型的巨大潜能,构建更加高效、开放的 AI 新生态。

2025-10-13 16:384
用户头像
李冬梅 加V:busulishang4668

发布了 1179 篇内容, 共 801.6 次阅读, 收获喜欢 1299 次。

关注

评论

发布
暂无评论

SD-WAN零接触部署解析

Ogcloud

SD-WAN SD-WAN组网 SD-WAN服务商

小程序开发实战案例五 | 小程序如何嵌入H5页面

盐焗代码虾

小程序 支付宝 web-view

2023 年值得一读的技术文章 | NebulaGraph 技术社区

NebulaGraph

图数据库

首个!百度飞桨会客厅落地广州,打通AI应用落地的“最后一公里”

飞桨PaddlePaddle

人工智能 AI AI技术 百度飞桨 智能化

软件测试|拒绝上市公司的 Offer,选择自己喜爱的行业,这么从容不迫他凭什么?

霍格沃兹测试开发学社

每日一题:LeetCode-153. 寻找旋转排序数组中的最小值

Geek_4z9ami

面试 算法 LeetCode 二分查找 Go 语言

数据库防水坝是什么?有什么作用?有哪些优势?

行云管家

数据库 堡垒机 数据库安全

回顾 2023,NebulaGraph 的这一年的变化

NebulaGraph

图数据库

判断SD-WAN是否适用于你的企业的关键问题

Ogcloud

SD-WAN SD-WAN组网 SD-WAN服务商

SD-WAN保障服务质量的五大核心功能

Ogcloud

SD-WAN SD-WAN组网 SD-WAN服务商

聊聊TiDB里面如何实现读写分离

TiDB 社区干货传送门

实践案例

夜读 PingCAP CTO 文章总结 TiDB 三个特性

TiDB 社区干货传送门

7.x 实践

使用 HyBench 测试 TiDB

TiDB 社区干货传送门

性能测评 7.x 实践

2024年南京等保测评机构名单看这里!

行云管家

网络安全 南京 等级保护 等保测评

喜讯!云起无垠获评“德勤海淀明日之星”

云起无垠

静态分析工具的评估测试

华为云

软件测试|测试管理训练营马上开营! 快来免费领取试听课吧~

霍格沃兹测试开发学社

如何使用MindStudio轻松搞定大模型全流程开发

华为云开发者联盟

人工智能 华为云 大模型 华为云开发者联盟

精通 GraphQL API 设计:最佳实践指南

Apifox

程序员 前端 后端 graphql GraphQL API

推理性能提升10倍!蚂蚁集团开源业内首个高性能扩散语言模型推理框架dInfer_生成式 AI_李冬梅_InfoQ精选文章