写点什么

Mooncake 正式开源!阿里云与清华大学共建 AI 大模型推理项目,加速大模型推理技术发展

  • 2024-11-28
    北京
  • 本文字数:907 字

    阅读完需:约 3 分钟

大小:366.02K时长:02:04
Mooncake 正式开源!阿里云与清华大学共建AI大模型推理项目,加速大模型推理技术发展

2024 年 6 月,国内优质大模型应用月之暗面 Kimi 与清华大学 MADSys 实验室(Machine Learning, AI, Big Data Systems Lab)联合发布了以 KVCache 为中心的大模型推理架构 Mooncake。通过使用以 KVCache 为中心的 PD 分离和以存换算架构,大幅提升大模型应用 Kimi 智能助手推理吞吐的同时有效降低了推理成本,自发布以来受到业界广泛关注。近日,清华大学和研究组织 9#AISoft,联合以阿里云为代表的多家企业和研究机构,正式开源大模型资源池化项目 Mooncake。希望更多的厂商与开发者共建高性能推理框架底层基础设施的开源生态。

Mooncake架构图


基于和清华大学之间的创新研究计划(AIR)项目,阿里云和清华大学共同探讨如何在实际工业界应用大模型资源池化技术,并做出了诸多技术成果积累。其中,为了加速大模型推理技术的发展,特别是推理实例共享的缓存池化层的标准化,阿里云与清华大学深度共建 Mooncake 项目,结合主流大模型推理框架,抽象缓存池化层的底层接口,实现高效分布式资源解耦架构。针对大模型场景进行深度优化,帮助提升大模型超长上下文的推理性能。

 

作为 AI 基础设施服务商,阿里云在 Mooncake 项目中,向传输引擎(Transfer Engine)、点对点存储(P2P Store)和高性能内存存储等关键组件贡献了代码。在推理框架层面,完成了与广泛使用的大模型推理框架 vLLM 的适配,大幅提升了推理性能,并为其他大模型推理框架的对接适配提供了参考实现,推动了大模型资源池化技术在业界的落地。在 Transfer Engine 层面,提供阿里云自研 eRDMA 网络的底层传输路径,并计划提供对于 CXL 的支持,保证用户能够在云上快速规模化部署。

 

清华大学 MADSys 实验室章明星教授表示,通过 Mooncake 可以充分利用 AI Infra 中的 CPU、内存和 SSD 资源,提升推理请求的处理速度,借助资源解耦架构来使能不同推理实例间的缓存共享,减少资源浪费。此次联合阿里云一起将 Mooncake 项目开源,希望能够协同产学研力量共建开源社区,推动当下大模型推理系统的快速发展。

 

未来,阿里云会更深层次的参与 Mooncake 项目的共建,携手更多企业、机构、高校力量,持续探索更加高效和先进的模型推理系统架构创新,让大模型技术真正惠及千行百业。


Mooncake 项目开源地址:

https://github.com/kvcache-ai/mooncake

2024-11-28 09:5817071

评论 1 条评论

发布
用户头像
https://github.com/kvcache-ai/Mooncake 这上面没有代码,代码放在哪里了
2024-11-22 20:15 · 中国香港
回复
没有更多了
发现更多内容

python入门之数据库操作

技能实验室

Python 10月月更

python入门之内置模块argparse

技能实验室

Python 10月月更

使用python实现一个文件搜索功能,类似于Everything功能

技能实验室

Python 10月月更

【融云出海白皮书免费看】出海洞察之印尼的「新兴市场启示录」

融云 RongCloud

白皮书 出海

3DCAT教育合作伙伴招募 | 价值80w权益等你来,立享最高级别技术支持

3DCAT实时渲染

云计算 元宇宙 实时渲染 实时云渲染 云VR

python实现ftp服务端和客户端

技能实验室

Python 10月月更

windows机器配置自签名ssl证书,部署文件服务器

技能实验室

windows SSL证书 10月月更

深入RocketMQ-消息原理篇

C++后台开发

RocketMQ 消息队列 后端开发 linux开发 C++开发

专访超次元|这家头部虚拟赛道公司,如何借助3DCAT加速元宇宙建设?

3DCAT实时渲染

云计算 元宇宙 实时渲染 实时云渲染 云VR

在Centos6.10安装python3后安装第三方包遇到的问题

技能实验室

Python 10月月更

python入门之os模块和platform模块

技能实验室

10月月更

使用Idea搭建App开发环境,创建安卓工程

技能实验室

android IDEA 10月月更

使用python提供一个简单的restful接口

技能实验室

python 3.5+ 10月月更

使用python校验密码强度

技能实验室

python 3.5+ 10月月更

python入门之时间处理日期库

技能实验室

Python 10月月更

使用python监控linux服务器

技能实验室

10月月更

python将视频抽帧的的多种方式

技能实验室

10月月更

Java读取csv文件的三种方式

技能实验室

10月月更

国家级认证!青藤获得安全运营类一级资质

青藤云安全

网络安全 主机安全 青藤云安全

python替换图片背景色,适用于制作证件照

技能实验室

python 3.5+ 10月月更

Springboot项目启动后获取配置属性

技能实验室

10月月更

python入门之发送邮件

技能实验室

Python 10月月更

python中的一个实用的库imghdr,用于探测图片格式

技能实验室

Python 10月月更

电网攻击频发,云原生架构正在成为众矢之的

青藤云安全

网络安全 主机安全 青藤云安全

两折!3DCAT实时渲染云超强算力帮你玩转元宇宙

3DCAT实时渲染

云计算 元宇宙 实时渲染 实时云渲染 云VR

python版局域网端口扫描

技能实验室

Python 10月月更

记一次应用接入第三方统一认证服务的过程,基于JWT和OAuth2.0

技能实验室

Java 10月月更

使用python生成文字图片,画圆圈 ,生成圆形图片

技能实验室

10月月更

LED显示屏由什么组成?

Dylan

LED显示屏 全彩LED显示屏 led显示屏厂家

使用python处理视频的库moviepy

技能实验室

python 3.5+ 10月月更

Mooncake 正式开源!阿里云与清华大学共建AI大模型推理项目,加速大模型推理技术发展_生成式 AI_凌敏_InfoQ精选文章