写点什么

Mooncake:面向长上下文的 KVCache 中心化推理优化方案|AICon 深圳

  • 2025-08-01
    北京
  • 本文字数:1552 字

    阅读完需:约 5 分钟

大小:838.20K时长:00:00
Mooncake:面向长上下文的 KVCache 中心化推理优化方案|AICon 深圳

8 月 22 日 -23 日,首届AICon 全球人工智能开发与应用大会深圳站即将拉开帷幕。本次大会将聚焦 Agent、多模态、AI 产品设计等热门方向,围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例,邀请来自阿里、腾讯、字节跳动、微软、华为等头部企业以及商汤、Plaud、Rokid 等 AI 明星公司的专家,分享 AI 落地实战经验。一起探索 AI 应用的更多可能,发掘 AI 驱动业务增长的新路径!


阿里云高级技术专家马腾已确认出席并发表题为Mooncake:面向长上下文的 KVCache 中心化推理优化方案的主题分享。随着大模型应用的普及,推理过程中的高计算资源消耗和 KVCache(键值缓存)的冗余存储成为关键瓶颈,导致推理成本高昂、吞吐量受限,尤其在长上下文场景中表现尤为突出。Mooncake 项目通过创新的以 KVCache 为中心的“PD 分离”架构(计算与存储解耦)和“以存换算”设计,将 KVCache 池化共享,结合高性能传输技术(如 eRDMA、GPUDirect)和分布式存储优化,实现跨实例的资源复用。


Mooncake 项目包括三大创新点:(1)Transfer Engine:支持全链路零拷贝、多网卡聚合(8×400Gbps),兼容 eRDMA/NVLink/CXL,动态拓扑感知。(2)KVCache Store:利用 GPU 闲置内存与 RPC 框架 coro_rpc,实现透明多级缓存,未来支持廉价存储下沉。(3)生态整合:与 vLLM/SGLang 等主流推理框架适配,TPOT 下降 20%,成本低至 0.2$/1M Token。在多轮对话,长文本阅读等场景中,推理吞吐量显著提升,响应时间降低 69.1%,并被阿里云、蚂蚁集团等企业实际部署。



马腾现任阿里云高级技术专家,于 2021 年 6 月在清华大学获得计算机博士学位。于 2021 年 7 月至 2023 年 11 月期间,在阿里云联合中科院自动化所博士后工作站从事数据中心解耦相关研究。马腾目前担任阿里云基础软件部门的高级技术专家,主要从事 AI 基础设施在新硬件环境下国产化的研究工作,以及国产化硬件如何优化大模型服务系统,其中 CXL-SHM 是国内高速总线领域第一个开源项目,另一个开源项目 Mooncake 被阿里 / 蚂蚁 / 腾讯等多家企业使用。在 SOSP, ASPLOS, ATC, SC, INFOCOM, VLDB, TPDS 等顶级会议上发表论文二十余篇,相关成果授权美国 / 中国专利十余项。入选 CCF 系统软件专委会优秀博士论文激励计划,担任 PPoPP, FAST, ICME, DASFAA, TPDS, TC, JSC 等国际会议 / 期刊的程序委员会成员和审稿人。他在本次会议的详细演讲内容如下:


演讲提纲:

1、引言

  • 大模型推理的挑战:成本、吞吐与长上下文瓶颈

  • Mooncake 项目的产学研背景与开源意义

2、核心技术解析

  • PD 分离架构:计算与存储解耦的设计哲学

  • KVCache 池化:共享机制与性能优化

  • Transfer Engine:eRDMA/GPUDirect 的高效传输实现

3、行业实践与效果

  • 与 vLLM/SGLang 的适配案例

  • 企业级部署经验(阿里云、蚂蚁集团)

4、未来展望

  • Mooncake Store v2:多实例共享 KVCache

  • 生态扩展:LMDeploy、TensorRT-LLM 等框架支持

听众收益:

  • 了解如何通过 KVCache 池化与 PD 分离架构解决大模型推理的高成本问题,获得可复用的架构设计思路

  • 学习 eRDMA/GPUDirect 等高性能传输技术在大模型场景的落地方法,提升分布式系统优化能力

  • 掌握主流推理框架(如 vLLM)与 Mooncake 的适配策略,推进开源解决方案持续发展


除此之外,本次大会还策划了AI InfraAI 产品研发与商业落地探索Agent 应用新范式与 MCP 生态实践AI 驱动业务重塑与提效智能硬件与具身智能创新实践AI 原生时代的卓越架构治理、、多模态与空间智能技术创新Agent + Data 落地探索AI 赋能研发体系变革Agent 核心技术与系统架构创新大模型在金融领域的创新实践等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 70+资深专家在 AICon 深圳站现场带来前沿技术洞察和一线实践经验。


大会 9 折优惠倒计时最后 1 天,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-08-01 10:349

评论

发布
暂无评论

了解 Websocket 断连技巧:易懂的实战指导

Apifox

程序员 后端 网络协议 websocket 网络通信

科技改变财务规划:提升企业对自动化技术的管理

智达方通

企业管理 财务分析 财务规划与分析

上云有道 | 一图读懂天翼云边缘安全加速平台AccessOne!

天翼云开发者社区

边缘计算 云服务 云平台 边缘安全

Redis开源协议调整,我们怎么办?

redis 华为云

App自动化测试:高级控件交互方法

霍格沃兹测试开发学社

用友陈强兵:企业数智化进入“加速期”

ToB行业头条

为什么选择霍格沃兹测试开发学社Python全栈开发与测试班?

霍格沃兹测试开发学社

吴晓波频道:构建知识付费领域的数据飞轮

字节跳动数据平台

大数据 企业号2024年4月PK榜 #数据飞轮

揭秘高级控件技巧:让您的App与众不同

测试人

软件测试

实例演示如何使用CCE XGPU虚拟化

华为云开发者联盟

开发 华为云 华为云开发者联盟 华为云CCE 企业号2024年4月PK榜

玩转云端| AccessOne实用窍门之三步搞定门户网站防护与加速

天翼云开发者社区

云计算 网络安全 云服务

探索GaussDB(DWS)湖仓融合:Hudi与元数据打通的深度解析

华为云开发者联盟

数据库 华为云 华为云开发者联盟 华为云GaussDB(DWS) 企业号2024年4月PK榜

NFTScan | 03.25~03.31 NFT 市场热点汇总

NFT Research

NFT\ NFTScan nft工具

一学就懂!Abaqus热分析发动机电池包和电池冲击分析

思茂信息

abaqus abaqus软件 abaqus有限元仿真

企业号 4月 PK 榜,火热开启!

极客时间

热门活动 企业号 4 月 PK 榜

离散型工厂生产制造MES管理系统解决方案

万界星空科技

数字化 制造业 mes 万界星空科技 离散型制造业

「天工大模型3.0」将于4月17日发布 同步开源4000亿参数MoE超级模型

新消费日报

base链市值机器人

区块链技术

Flink Checkpoint 机制深度解析:原理、注意事项与最佳实践

木南曌

flink 实时计算

xz工具供应链后门事件 紧急处理

徐凌云

又双叒叕获奖!天翼云推动算力服务便捷普惠泛在!

天翼云开发者社区

云计算 网络安全 云服务

玩转云端| 如何防爬虫?天翼云边缘安全加速平台AccessOne带你涨姿势!

天翼云开发者社区

云计算 网络安全 云服务 云平台

制造业工厂为什么需要生产管理MES系统

万界星空科技

制造业 智能制造 mes 万界星空科技

一款比Typora更简洁优雅的Markdown编辑器神器(完全开源免费)

不在线第一只蜗牛

Typora 编辑器

飞天发布时刻丨阿里云 ApsaraMQ 全面升级,携手 Confluent 发布全新产品

阿里巴巴云原生

阿里云 云原生 Confluent ApsaraMQ

Mooncake:面向长上下文的 KVCache 中心化推理优化方案|AICon 深圳_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章