Mooncake 最新进展：SGLang 和 LMCache 基于 Mooncake 实现高效 PD 分离框架_AI&大模型_马腾

阿里云飞天发布时刻，领先大模型限免，超7000万 tokens免费体验了解详情 



 写点什么



大小：908.55K时长：05:10

Mooncake 最新进展：SGLang 和 LMCache 基于 Mooncake 实现高效 PD 分离框架

近日，阿里云高级技术专家马腾受邀参加在上海举办的 2025 全球开发者先锋大会（GDC），分享了主题《新技术新方案：产业共建大模型时代下的 Mooncake》的演讲，重点聚焦开源大模型的技术演进、产业实践与商业转化三大维度。会上，他详细介绍了阿里云在开源项目 Mooncake 大模型存储架构上的最新贡献，展示了开源项目 Mooncake 如何通过共享 KVCache 来以存换算，优化大模型推理效率，从而提升整体 AI 系统的效率和可靠性。现场嘉宾通过多维度的交流研讨，共同讨论了如何与行业合作伙伴共同构建高效 KVCache 解决方案的策略，推动开源大模型在更多实际应用场景中的落地，充分展现了开源人工智能技术在赋能传统产业转型升级中的创新动能与应用前景。

早在 2024 年 6 月，月之暗面 Kimi 和清华大学 MADSys 实验室联合推出了大模型推理架构 Mooncake，通过 KVCache 为中心设计，显著提升了 Kimi 智能助手的推理吞吐和成本效率。同年 11 月，清华大学和阿里云、趋境科技、蚂蚁集团、9#AISoft 在内的多家企业和组织共同宣布开源 Mooncake 项目，共同推动推理实例共享和缓存池化层的标准化，实现高效分布式资源解耦，提升大模型长上下文的推理性能，旨在建设高性能推理框架的开源生态，共同探索大模型资源池化技术在工业界的应用。

近期，Mooncake 项目与 SGLang、vLLM 等主流大模型推理框架实现合作和适配，这些开源大模型推理框架可以通过使用 Mooncake 发布的 whl 包，支持 pip 安装，docker 镜像部署等，实现了 PD 分离框架，极大提升了模型推理效率。在传输路径层面，Mooncake 项目为开源大模型推理框架提供了阿里云自研 eRDMA 网络的底层传输路径，以及兼容 eRDMA 的 GPUDirect，保证用户能够在云上快速实现 PD 分离框架的规模化部署。

其中，Mooncake 项目通过和当前主流开源推理框架 SGLang 项目的合作集成开发，实现了基于 Mooncake Transfer Engine 的 PD 分离框架，通过 GDR 的零拷贝通信技术能够支持 EP+DP+TP+PD 分离的场景下对 Deepseek 模型的高效部署，TPOT 下降了将近 20%，能够将成本降低至 0.2$/1M Token。由于 Mooncake 项目的易用性和完整功能设计，其被 Dynamo 的设计所参考，并在文档中专门致谢，近日也被集成到 Dynamo 生态中的传输框架 Nixl 中。

值得一提的是，Mooncake 与 LMCache 团队通过技术整合（结合 Mooncake 的 KVCache 存储架构与 LMCache 的缓存管理机制），显著优化了 LLM 服务性能，在缓存命中场景下，平均响应时间降低 69.1%、吞吐量提升 191%，验证了 KVCache 复用对分布式 LLM 服务效率的突破性提升。

Mooncake 最新近况

Mooncake 项目以高性能和灵活性为核心亮点，充分利用了 RDMA 和 GPUDirect 等高性能 IO 技术和特定推理系统解耦，进一步优化了面向单机多 RDMA 网卡场景的性能，实现了 Transfer Engine、KVCache Store、LLM Integration、P2P Store 等功能特性。其中，Transfer Engine 拥有全链路零拷贝、多网卡池化的能力，最高可聚合 8*400Gbps 带宽，实现拓扑感知、故障容错、负载均衡、多协议支持等功能。

相比其他传输协议，Transfer Engine 能够更充分地发挥高性能网卡的优势，相比 nccl 更加灵活，更好地支持动态拓朴、故障容错等功能。KVCache Store 充分利用了当前 GPU 集群中闲置的内存容量和互联带宽，省成本的同时降低响应延迟，同时使用了阿里自研的开源 RPC 框架 coro_rpc 来降低控制路径开销，其透明多级缓存的能力可以在未来进一步下沉到底层廉价存储。Mooncake 的架构设计兼具高性能和灵活性，为未来的扩展性和生态建设奠定了坚实基础。

Mooncake 整体架构

目前，Mooncake 项目在 Github 上拥有超过 3000 个 Star，吸引了二十余名活跃开发者，持续合入接入开源大模型框架项目的 PR，被 Infoq、OSChina、新智元、机器之心、vLLM、LMSys 等媒体和组织高度关注和报道，现已在 SGLang 社区中成为广大开发者使用大模型推理框架的默认方案。Mooncake 项目的不同组件已经在阿里云、蚂蚁集团等大模型厂商实现内部部署，吸引了来自腾讯、美团、讯飞等企业开发者的关注。

未来，Mooncake 项目会持续性推出针对多 LLM 实例共享 KVCache 的 Mooncake Store v2 版本。Mooncake 也会支持更多推理框架，如 LMDeploy、TensorRT-LLM 等，持续性完善 Mooncake 的软件服务生态。同时，Mooncake 也会基于 LMCache 等推理服务插件来提升推理框架性能。阿里云将依托于开源大模型推理项目 Mooncake，与行业伙伴共建高效 KVCache 解决方案，共推开源大模型在更多实际应用场景中的落地应用。

Mooncake 项目开源地址：

https://github.com/kvcache-ai/mooncake

发布

暂无评论

创作场景

Mooncake 最新进展：SGLang 和 LMCache 基于 Mooncake 实现高效 PD 分离框架

评论

情绪稳定！别再让Git合并冲突影响你工作了

CAE教程：HyperMesh概述与有限元分析简介

携手并进，智驭教育！和鲸科技与智谱 AI 签署“101 数智领航计划”战略合作协议

2025云堡垒机公司就选行云绽放！

飞码LowCode前端技术（七）

人工智能 | 阿里通义千问大模型

商品详情数据API接口详解与数据应用参考

喜讯|麦杰科技入选首批《上海市重点产业和领域数字化产品和解决方案推荐目录》

飞码LowCode前端技术（五）

计算不停歇，百度沧海数据湖存储加速方案 2.0 设计和实践

测试热招职位技能要求拆解公开课 —— 开启你的软件测试进阶之路

研发效能中的黄金三角与瓶颈突围

人工智能 | 阿里通义千问大模型

开源向量数据库性能对比: Milvus, Chroma, Qdrant

VMware Aria Operations 8.18 发布，新增功能概览

按图搜索的智能化：拍立淘API返回值的算法解析

捷途山海 T2—— 安全堡垒，护航人生

飞码LowCode前端技术（六）

研发数据要不要跟绩效考核挂钩？

VMware ESXi 8.0U3 macOS Unlocker & OEM BIOS 2.7 Dell HPE 定制版 9 月更新发布

VMware Cloud Director 10.6 发布，新增功能概览

基智科技CEO张文战：探索火山引擎数据飞轮模式下的大模型应用新机会

【FAQ】HarmonyOS SDK 闭源开放能力 —Map Kit（3）

VMware ESXi 8.0U3 HPE (慧与) 定制版更新 OEM BIOS 2.7 支持 Windows Server 2025

儋州市等保测评机构有哪些？在哪里？

“特斯拉式”创新，被这家科技卫浴品牌极致演绎

【CST教程】如何在CST中设置自由边界

Java 如何确保 JS 不被缓存

数字身份管理建设是传统社会向数字社会演进的核心关键

创作场景

Mooncake 最新进展：SGLang 和 LMCache 基于 Mooncake 实现高效 PD 分离框架

评论

推荐阅读

电子书

大厂实战PPT下载