2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

Mooncake 正式开源!阿里云与清华大学共建 AI 大模型推理项目,加速大模型推理技术发展

  • 2024-11-28
    北京
  • 本文字数:907 字

    阅读完需:约 3 分钟

大小:366.02K时长:02:04
Mooncake 正式开源!阿里云与清华大学共建AI大模型推理项目,加速大模型推理技术发展

2024 年 6 月,国内优质大模型应用月之暗面 Kimi 与清华大学 MADSys 实验室(Machine Learning, AI, Big Data Systems Lab)联合发布了以 KVCache 为中心的大模型推理架构 Mooncake。通过使用以 KVCache 为中心的 PD 分离和以存换算架构,大幅提升大模型应用 Kimi 智能助手推理吞吐的同时有效降低了推理成本,自发布以来受到业界广泛关注。近日,清华大学和研究组织 9#AISoft,联合以阿里云为代表的多家企业和研究机构,正式开源大模型资源池化项目 Mooncake。希望更多的厂商与开发者共建高性能推理框架底层基础设施的开源生态。

Mooncake架构图


基于和清华大学之间的创新研究计划(AIR)项目,阿里云和清华大学共同探讨如何在实际工业界应用大模型资源池化技术,并做出了诸多技术成果积累。其中,为了加速大模型推理技术的发展,特别是推理实例共享的缓存池化层的标准化,阿里云与清华大学深度共建 Mooncake 项目,结合主流大模型推理框架,抽象缓存池化层的底层接口,实现高效分布式资源解耦架构。针对大模型场景进行深度优化,帮助提升大模型超长上下文的推理性能。

 

作为 AI 基础设施服务商,阿里云在 Mooncake 项目中,向传输引擎(Transfer Engine)、点对点存储(P2P Store)和高性能内存存储等关键组件贡献了代码。在推理框架层面,完成了与广泛使用的大模型推理框架 vLLM 的适配,大幅提升了推理性能,并为其他大模型推理框架的对接适配提供了参考实现,推动了大模型资源池化技术在业界的落地。在 Transfer Engine 层面,提供阿里云自研 eRDMA 网络的底层传输路径,并计划提供对于 CXL 的支持,保证用户能够在云上快速规模化部署。

 

清华大学 MADSys 实验室章明星教授表示,通过 Mooncake 可以充分利用 AI Infra 中的 CPU、内存和 SSD 资源,提升推理请求的处理速度,借助资源解耦架构来使能不同推理实例间的缓存共享,减少资源浪费。此次联合阿里云一起将 Mooncake 项目开源,希望能够协同产学研力量共建开源社区,推动当下大模型推理系统的快速发展。

 

未来,阿里云会更深层次的参与 Mooncake 项目的共建,携手更多企业、机构、高校力量,持续探索更加高效和先进的模型推理系统架构创新,让大模型技术真正惠及千行百业。


Mooncake 项目开源地址:

https://github.com/kvcache-ai/mooncake

2024-11-28 09:5816035

评论 1 条评论

发布
用户头像
https://github.com/kvcache-ai/Mooncake 这上面没有代码,代码放在哪里了
2024-11-22 20:15 · 中国香港
回复
没有更多了
发现更多内容

重学 Java 设计模式:实战享元模式「基于Redis秒杀,提供活动与库存信息查询场景」

小傅哥

设计模式 小傅哥 重构 代码坏味道 代码优化

架构师训练营第 2 周——学习总结

在野

极客大学架构师训练营

Spring-资源加载

CoderLi

Java spring 程序员 后端 Java 25 周年

谈谈程序链接及分段那些事

泰伦卢

c++

程序一定要从main函数开始运行吗?

泰伦卢

c++

面试官:线程池如何按照core、max、queue的执行循序去执行?(内附详细解析)

一枝花算不算浪漫

面试 jdk源码 线程池

架构师训练营第二周总结

一剑

CDN百科第四讲 | 如何优雅地在云上“摆摊”——做直播带货,你不得不关注的技术

阿里云Edge Plus

CDN 边缘计算 直播 直播带货

Flink on Zeppelin (1)入门篇

Geek_8o1tcx

大数据 flink 流计算 Zeppelin

漫画 | 啊哈,给我一碗孟婆汤

码农神说

程序员 测试 互联网人 设计师

Spring 获取单例流程(三)

CoderLi

Java spring 程序员 源码分析 后端

LinkedList竟然比ArrayList慢了1000多倍?(动图+性能评测)

王磊

Java 数据结构 性能优化 性能 链表

Spring-AliasRegistry

CoderLi

Java spring 程序员 源码分析 后端

【大厂面试05期】说一说你对MySQL中锁的理解?

NotFound9

Java MySQL 后端

数字产品开发那些事

涛哥 数字产品和业务架构

产品开发 数字化

618 将至,融云通信云技术如何助力电商销售

Geek_116789

Spring 获取单例流程(一)

CoderLi

Java spring 程序员 源码分析 后端

架构师训练营第二周作业

一剑

小师妹学JVM之:JVM的架构和执行过程

程序那些事

Java JVM 小师妹 性能调优 签约计划第二季

别教我女儿该怎么穿,教你儿子别去强奸

小天同学

教育 日常思考 个人感悟 自我保护

软件开发:软件设计的基本原则

Skye

极客大学架构师训练营

架构师训练营-课后作业-Week-2

Chasedreamer

Spring 容器的初始化

CoderLi

Java spring 程序员 源码分析 后端

作为CEO你比员工厉害吗?

Neco.W

创业 创业者 CEO

为什么你的简历石沉大海,offer 了无音讯?

非著名程序员

程序员 程序人生 提升认知 简历优化 简历

编译Spring5.2.0源码

CoderLi

Java spring 程序员 后端 Java 25 周年

以太坊颠覆了以太坊:引入密码学实现2.0性能突破

安比实验室SECBIT

以太坊 分布式系统 节点 密码学

Spring 获取单例流程(二)

CoderLi

Java spring 程序员 源码分析 后端

架构师训练营第二周 - 作业

Eric

极客大学架构师训练营

Websocket直播间聊天室教程 - GoEasy快速实现聊天室

GoEasy消息推送

直播 websocket 即时通讯 聊天室 弹幕

ARTS-Week Four

shepherd

Java algorithm

Mooncake 正式开源!阿里云与清华大学共建AI大模型推理项目,加速大模型推理技术发展_生成式 AI_凌敏_InfoQ精选文章