嘉宾介绍:
主持人:王一鹏 InfoQ 极客传媒 总经理、总编辑
嘉宾 1:章明星 清华大学 副教授
嘉宾 2:马腾 阿里云高级技术专家、Mooncake 项目核心贡献者
视频介绍:
大模型应用加速普及的当下,推理面临高成本、低吞吐、长上下文适配难的瓶颈,而底层 OS 的资源调度与 IO 优化是破局关键。
作为阿里云深度参与并主导运营的开源项目,Mooncake 依托阿里云基础软件国产化积累,以“PD 分离”架构、“以存换算”设计,结合 eRDMA 技术,与 OS 层深度协同,实现了 KVCache 跨实例共享,最终使得推理成本、响应时间大幅降低。本次直播聚焦 Mooncake 核心技术解析、企业落地实践及未来规划,共探大模型推理高效化路径。
视频亮点:
● 瓶颈破解:大模型推理痛点解析与 PD 分离、KVCache 池化思路
● 技术干货:详解 Transfer Engine(eRDMA / 零拷贝)+ 多级缓存优化
● 实践验证:vLLM/SGLang 适配 + 企业级部署经验分享
● 未来展望:Mooncake Store v2 多实例共享 + 多框架生态扩展
评论