Qwen3 惊喜上线阿里云百炼,8款模型全开源!点击免费领取 800万 tokens! 了解详情
写点什么

Mooncake 最新进展:SGLang 和 LMCache 基于 Mooncake 实现高效 PD 分离框架

  • 2025-05-14
    北京
  • 本文字数:1835 字

    阅读完需:约 6 分钟

大小:908.55K时长:05:10
Mooncake 最新进展:SGLang 和 LMCache 基于 Mooncake 实现高效 PD 分离框架

近日,阿里云高级技术专家马腾受邀参加在上海举办的 2025 全球开发者先锋大会(GDC),分享了主题《新技术新方案:产业共建大模型时代下的 Mooncake》的演讲,重点聚焦开源大模型的技术演进、产业实践与商业转化三大维度。会上,他详细介绍了阿里云在开源项目 Mooncake 大模型存储架构上的最新贡献,展示了开源项目 Mooncake 如何通过共享 KVCache 来以存换算,优化大模型推理效率,从而提升整体 AI 系统的效率和可靠性。现场嘉宾通过多维度的交流研讨,共同讨论了如何与行业合作伙伴共同构建高效 KVCache 解决方案的策略,推动开源大模型在更多实际应用场景中的落地,充分展现了开源人工智能技术在赋能传统产业转型升级中的创新动能与应用前景。


早在 2024 年 6 月,月之暗面 Kimi 和清华大学 MADSys 实验室联合推出了大模型推理架构 Mooncake,通过 KVCache 为中心设计,显著提升了 Kimi 智能助手的推理吞吐和成本效率。同年 11 月,清华大学和阿里云、趋境科技、蚂蚁集团、9#AISoft 在内的多家企业和组织共同宣布开源 Mooncake 项目,共同推动推理实例共享和缓存池化层的标准化,实现高效分布式资源解耦提升大模型长上下文的推理性能,旨在建设高性能推理框架的开源生态,共同探索大模型资源池化技术在工业界的应用。


近期,Mooncake 项目与 SGLang、vLLM 等主流大模型推理框架实现合作和适配,这些开源大模型推理框架可以通过使用 Mooncake 发布的 whl 包,支持 pip 安装,docker 镜像部署等,实现了 PD 分离框架,极大提升了模型推理效率。在传输路径层面,Mooncake 项目为开源大模型推理框架提供了阿里云自研 eRDMA 网络的底层传输路径,以及兼容 eRDMA 的 GPUDirect,保证用户能够在云上快速实现 PD 分离框架的规模化部署。


其中,Mooncake 项目通过和当前主流开源推理框架 SGLang 项目的合作集成开发,实现了基于 Mooncake Transfer Engine 的 PD 分离框架,通过 GDR 的零拷贝通信技术能够支持 EP+DP+TP+PD 分离的场景下对 Deepseek 模型的高效部署,TPOT 下降了将近 20%,能够将成本降低至 0.2$/1M Token。由于 Mooncake 项目的易用性和完整功能设计,其被 Dynamo 的设计所参考,并在文档中专门致谢,近日也被集成到 Dynamo 生态中的传输框架 Nixl 中。


值得一提的是,Mooncake 与 LMCache 团队通过技术整合(结合 Mooncake 的 KVCache 存储架构与 LMCache 的缓存管理机制),显著优化了 LLM 服务性能,在缓存命中场景下,平均响应时间降低 69.1%、吞吐量提升 191%,验证了 KVCache 复用对分布式 LLM 服务效率的突破性提升。



Mooncake 最新近况


Mooncake 项目以高性能和灵活性为核心亮点,充分利用了 RDMA 和 GPUDirect 等高性能 IO 技术和特定推理系统解耦,进一步优化了面向单机多 RDMA 网卡场景的性能,实现了 Transfer Engine、KVCache Store、LLM Integration、P2P Store 等功能特性。其中,Transfer Engine 拥有全链路零拷贝、多网卡池化的能力,最高可聚合 8*400Gbps 带宽,实现拓扑感知、故障容错、负载均衡、多协议支持等功能。


相比其他传输协议,Transfer Engine 能够更充分地发挥高性能网卡的优势,相比 nccl 更加灵活,更好地支持动态拓朴、故障容错等功能。KVCache Store 充分利用了当前 GPU 集群中闲置的内存容量和互联带宽,省成本的同时降低响应延迟,同时使用了阿里自研的开源 RPC 框架 coro_rpc 来降低控制路径开销,其透明多级缓存的能力可以在未来进一步下沉到底层廉价存储。Mooncake 的架构设计兼具高性能和灵活性,为未来的扩展性和生态建设奠定了坚实基础。


Mooncake 整体架构


目前,Mooncake 项目在 Github 上拥有超过 3000 个 Star,吸引了二十余名活跃开发者,持续合入接入开源大模型框架项目的 PR,被 Infoq、OSChina、新智元、机器之心、vLLM、LMSys 等媒体和组织高度关注和报道,现已在 SGLang 社区中成为广大开发者使用大模型推理框架的默认方案。Mooncake 项目的不同组件已经在阿里云、蚂蚁集团等大模型厂商实现内部部署,吸引了来自腾讯、美团、讯飞等企业开发者的关注。


未来,Mooncake 项目会持续性推出针对多 LLM 实例共享 KVCache 的 Mooncake Store v2 版本。Mooncake 也会支持更多推理框架,如 LMDeploy、TensorRT-LLM 等,持续性完善 Mooncake 的软件服务生态。同时,Mooncake 也会基于 LMCache 等推理服务插件来提升推理框架性能。阿里云将依托于开源大模型推理项目 Mooncake,与行业伙伴共建高效 KVCache 解决方案,共推开源大模型在更多实际应用场景中的落地应用。


Mooncake 项目开源地址:

https://github.com/kvcache-ai/mooncake

2025-05-14 09:52292

评论

发布
暂无评论

作业-第9周

arcyao

第十三周总结

orchid9

架构师训练营第2期 第9周总结

月下独酌

极客大学架构师训练营

【架构师训练营第 1 期 13 周】 学习总结

Bear

极客大学架构师训练营

架构师训练营 2 期 Week09 作业

成为架构师 - 架构师训练营第 08 周

陈永龙Vincent

架构师训练营第二期 Week 9 作业

bigxiang

极客大学架构师训练营

架构师训练营第九周作业

李日盛

架构

增强产业链供应链自主可控能力

CECBC

供应链

南昌“舞动”区块链

CECBC

区块链 基础设施

架构师训练营第九周笔记

李日盛

JVM垃圾回收原理

幸福小子

JVM垃圾回收原理

架构师训练营第二期 Week 9 总结

bigxiang

极客大学架构师训练营

训练营第九周总结

大脸猫

极客大学架构师训练营

架构师训练营 - 第十三周 - 作业一

行者

【架构师训练营第 1 期 13 周】 作业

Bear

极客大学架构师训练营

C语言学习你要的都在这里

C语言与CPP编程

c++ 学习 编程 C语言

架构师训练营week13 作业

FG佳

极客大学架构师训练营

盘点2020 | 我要为分布式数据库mongodb在国内影响力提升及推广做点事

杨亚洲(专注MongoDB及高性能中间件)

数据库 mongodb 盘点2020 分布式数据库mongodb

JVM&秒杀案例

幸福小子

JVM原理

训练营第九周作业

大脸猫

极客大学架构师训练营

周练习 13

何毅曦

架构师训练营 week13总结

FG佳

极客大学架构师训练营

《JAVA并发编程核心方法与框架》.pdf

田维常

并发编程

互操作性如何助推区块链接入互联网基础设施

CECBC

区块链 密码学

redis的I/O多路复用

en

redis 多路复用 epoll

架构师训练营第 1 期 -- 第十三周作业

发酵的死神

极客大学架构师训练营

第十三周作业

orchid9

成为架构师 - 架构师训练营第 07 周

陈永龙Vincent

第十二周作业

wanlinwang

极客大学架构师训练营

架构师训练营 2 期 Week09 总结

Mooncake 最新进展:SGLang 和 LMCache 基于 Mooncake 实现高效 PD 分离框架_AI&大模型_马腾_InfoQ精选文章