阿里云飞天发布时刻,领先大模型限免,超7000万 tokens免费体验 了解详情
写点什么

Mooncake 最新进展:SGLang 和 LMCache 基于 Mooncake 实现高效 PD 分离框架

  • 2025-05-14
    北京
  • 本文字数:1835 字

    阅读完需:约 6 分钟

大小:908.55K时长:05:10
Mooncake 最新进展:SGLang 和 LMCache 基于 Mooncake 实现高效 PD 分离框架

近日,阿里云高级技术专家马腾受邀参加在上海举办的 2025 全球开发者先锋大会(GDC),分享了主题《新技术新方案:产业共建大模型时代下的 Mooncake》的演讲,重点聚焦开源大模型的技术演进、产业实践与商业转化三大维度。会上,他详细介绍了阿里云在开源项目 Mooncake 大模型存储架构上的最新贡献,展示了开源项目 Mooncake 如何通过共享 KVCache 来以存换算,优化大模型推理效率,从而提升整体 AI 系统的效率和可靠性。现场嘉宾通过多维度的交流研讨,共同讨论了如何与行业合作伙伴共同构建高效 KVCache 解决方案的策略,推动开源大模型在更多实际应用场景中的落地,充分展现了开源人工智能技术在赋能传统产业转型升级中的创新动能与应用前景。


早在 2024 年 6 月,月之暗面 Kimi 和清华大学 MADSys 实验室联合推出了大模型推理架构 Mooncake,通过 KVCache 为中心设计,显著提升了 Kimi 智能助手的推理吞吐和成本效率。同年 11 月,清华大学和阿里云、趋境科技、蚂蚁集团、9#AISoft 在内的多家企业和组织共同宣布开源 Mooncake 项目,共同推动推理实例共享和缓存池化层的标准化,实现高效分布式资源解耦提升大模型长上下文的推理性能,旨在建设高性能推理框架的开源生态,共同探索大模型资源池化技术在工业界的应用。


近期,Mooncake 项目与 SGLang、vLLM 等主流大模型推理框架实现合作和适配,这些开源大模型推理框架可以通过使用 Mooncake 发布的 whl 包,支持 pip 安装,docker 镜像部署等,实现了 PD 分离框架,极大提升了模型推理效率。在传输路径层面,Mooncake 项目为开源大模型推理框架提供了阿里云自研 eRDMA 网络的底层传输路径,以及兼容 eRDMA 的 GPUDirect,保证用户能够在云上快速实现 PD 分离框架的规模化部署。


其中,Mooncake 项目通过和当前主流开源推理框架 SGLang 项目的合作集成开发,实现了基于 Mooncake Transfer Engine 的 PD 分离框架,通过 GDR 的零拷贝通信技术能够支持 EP+DP+TP+PD 分离的场景下对 Deepseek 模型的高效部署,TPOT 下降了将近 20%,能够将成本降低至 0.2$/1M Token。由于 Mooncake 项目的易用性和完整功能设计,其被 Dynamo 的设计所参考,并在文档中专门致谢,近日也被集成到 Dynamo 生态中的传输框架 Nixl 中。


值得一提的是,Mooncake 与 LMCache 团队通过技术整合(结合 Mooncake 的 KVCache 存储架构与 LMCache 的缓存管理机制),显著优化了 LLM 服务性能,在缓存命中场景下,平均响应时间降低 69.1%、吞吐量提升 191%,验证了 KVCache 复用对分布式 LLM 服务效率的突破性提升。



Mooncake 最新近况


Mooncake 项目以高性能和灵活性为核心亮点,充分利用了 RDMA 和 GPUDirect 等高性能 IO 技术和特定推理系统解耦,进一步优化了面向单机多 RDMA 网卡场景的性能,实现了 Transfer Engine、KVCache Store、LLM Integration、P2P Store 等功能特性。其中,Transfer Engine 拥有全链路零拷贝、多网卡池化的能力,最高可聚合 8*400Gbps 带宽,实现拓扑感知、故障容错、负载均衡、多协议支持等功能。


相比其他传输协议,Transfer Engine 能够更充分地发挥高性能网卡的优势,相比 nccl 更加灵活,更好地支持动态拓朴、故障容错等功能。KVCache Store 充分利用了当前 GPU 集群中闲置的内存容量和互联带宽,省成本的同时降低响应延迟,同时使用了阿里自研的开源 RPC 框架 coro_rpc 来降低控制路径开销,其透明多级缓存的能力可以在未来进一步下沉到底层廉价存储。Mooncake 的架构设计兼具高性能和灵活性,为未来的扩展性和生态建设奠定了坚实基础。


Mooncake 整体架构


目前,Mooncake 项目在 Github 上拥有超过 3000 个 Star,吸引了二十余名活跃开发者,持续合入接入开源大模型框架项目的 PR,被 Infoq、OSChina、新智元、机器之心、vLLM、LMSys 等媒体和组织高度关注和报道,现已在 SGLang 社区中成为广大开发者使用大模型推理框架的默认方案。Mooncake 项目的不同组件已经在阿里云、蚂蚁集团等大模型厂商实现内部部署,吸引了来自腾讯、美团、讯飞等企业开发者的关注。


未来,Mooncake 项目会持续性推出针对多 LLM 实例共享 KVCache 的 Mooncake Store v2 版本。Mooncake 也会支持更多推理框架,如 LMDeploy、TensorRT-LLM 等,持续性完善 Mooncake 的软件服务生态。同时,Mooncake 也会基于 LMCache 等推理服务插件来提升推理框架性能。阿里云将依托于开源大模型推理项目 Mooncake,与行业伙伴共建高效 KVCache 解决方案,共推开源大模型在更多实际应用场景中的落地应用。


Mooncake 项目开源地址:

https://github.com/kvcache-ai/mooncake

2025-05-14 09:522801

评论

发布
暂无评论

DCache 分布式存储系统|Set, ZSet 缓存模块的创建与使用

TARS基金会

nosql 缓存 分布式 MySQL 高可用 TARS

2021年新兴的十大区块链技术趋势

CECBC

数字技术

科技进化的终点,与荣耀全场景的起点

脑极体

epoll源码分析以及在Redis中的实现

Linux服务器开发

redis 后端 epoll web服务器 Linux服务器开发

打卡学习VBA和PYTHON week01

小怪兽

IT蜗壳教学

趋势预测:2021年五大流行的编程语言

薇薇

Java c php JavaScript Python PEP

如何评估需求优先级?

石云升

项目管理 28天写作 职场经验 管理经验 3月日更

炸裂,IBM系统架构师居然把自己15年Java经验整合成一本小说?

Java架构师迁哥

JDBC—往MySQL中写入Blob数据时,出现错误:com.mysql.jdbc.PacketTooBigException: Packet for query is too large (5724349 > 1048576)

打工人!

Java MySQL JDBC Blob

StarRocks在中移物联网PGW实时会话业务领域的应用

StarRocks

大数据 数据分析 物联网 IoT OLAP

直击面试!阿里技术官手码12W字面试小册在Github上爆火

Java架构之路

Java 程序员 架构 面试 编程语言

图解垃圾算法,No,捡垃圾算法

叫练

GC算法 引用计数法 标记清除法

php 再上热搜!swoole 创始人投出反对票,质疑 php 协程最新提案

薇薇

php 编程 新特性 php扩展

收藏!这些IDE使用技巧,你都知道吗

xcbeyond

IDEA 技巧 3月日更

发布两小时,霸榜GitHub!Spring Boot实战文档

Java 编程 程序员 架构师

filecoin云算力软件开发|filecoin云算力APP系统开发

系统开发

全凭阿里大牛总结的Java面试笔记,首战成功拿蚂蚁offer

Java架构之路

Java 程序员 架构 面试 编程语言

朱嘉明:比特币开创人类新型财富实验

CECBC

数字货币

霸榜Git!2021年阿里巴巴Java面试权威指南(泰山版)

Java架构之路

Java 程序员 架构 面试 编程语言

声网Agora发布创业支持计划:聚合50+合作伙伴、11项资源扶持创业者

ToB行业头条

声网 Agora

以数字人民币为契机 推动人民币国际化进程

CECBC

金融

一周信创舆情观察(3.8~3.14)

统小信uos

低代码/无代码,作为IT开发界的“新英雄”它究竟有何神技?

优秀

低代码 无代码开发

"无密码时代"已经来临!

龙归科技

身份认证

万象:百度的海量多媒体信息处理系统

百度Geek说

大数据 搜索引擎 百度 后端 #富媒体#

霸榜Git!2021年阿里巴巴Java面试权威指南(全彩版)

Java 程序员 面试 架构师

寻找被遗忘的勇气(十八)

Changing Lin

3月日更

全球案例 | Infobip :这家估值十亿美元的公司像初创企业一样规模化发展,像大型企业一样标准化

Atlassian

DevOps Agile Atlassian Jira ITSM

filecoin挖矿软件开发|filecoin挖矿APP系统开发

系统开发

filecoin矿机系统开发|filecoin矿机软件APP开发

系统开发

uni-app跨端开发H5、小程序、IOS、Android(二):开发工具HBuilderX使用技巧

黑马腾云

微信小程序 uni-app App 3月日更 Hbuilderx

Mooncake 最新进展:SGLang 和 LMCache 基于 Mooncake 实现高效 PD 分离框架_AI&大模型_马腾_InfoQ精选文章