写点什么

Mooncake 正式开源!阿里云与清华大学共建 AI 大模型推理项目,加速大模型推理技术发展

  • 2024-11-28
    北京
  • 本文字数:907 字

    阅读完需:约 3 分钟

大小:366.02K时长:02:04
Mooncake 正式开源!阿里云与清华大学共建AI大模型推理项目,加速大模型推理技术发展

2024 年 6 月,国内优质大模型应用月之暗面 Kimi 与清华大学 MADSys 实验室(Machine Learning, AI, Big Data Systems Lab)联合发布了以 KVCache 为中心的大模型推理架构 Mooncake。通过使用以 KVCache 为中心的 PD 分离和以存换算架构,大幅提升大模型应用 Kimi 智能助手推理吞吐的同时有效降低了推理成本,自发布以来受到业界广泛关注。近日,清华大学和研究组织 9#AISoft,联合以阿里云为代表的多家企业和研究机构,正式开源大模型资源池化项目 Mooncake。希望更多的厂商与开发者共建高性能推理框架底层基础设施的开源生态。

Mooncake架构图


基于和清华大学之间的创新研究计划(AIR)项目,阿里云和清华大学共同探讨如何在实际工业界应用大模型资源池化技术,并做出了诸多技术成果积累。其中,为了加速大模型推理技术的发展,特别是推理实例共享的缓存池化层的标准化,阿里云与清华大学深度共建 Mooncake 项目,结合主流大模型推理框架,抽象缓存池化层的底层接口,实现高效分布式资源解耦架构。针对大模型场景进行深度优化,帮助提升大模型超长上下文的推理性能。

 

作为 AI 基础设施服务商,阿里云在 Mooncake 项目中,向传输引擎(Transfer Engine)、点对点存储(P2P Store)和高性能内存存储等关键组件贡献了代码。在推理框架层面,完成了与广泛使用的大模型推理框架 vLLM 的适配,大幅提升了推理性能,并为其他大模型推理框架的对接适配提供了参考实现,推动了大模型资源池化技术在业界的落地。在 Transfer Engine 层面,提供阿里云自研 eRDMA 网络的底层传输路径,并计划提供对于 CXL 的支持,保证用户能够在云上快速规模化部署。

 

清华大学 MADSys 实验室章明星教授表示,通过 Mooncake 可以充分利用 AI Infra 中的 CPU、内存和 SSD 资源,提升推理请求的处理速度,借助资源解耦架构来使能不同推理实例间的缓存共享,减少资源浪费。此次联合阿里云一起将 Mooncake 项目开源,希望能够协同产学研力量共建开源社区,推动当下大模型推理系统的快速发展。

 

未来,阿里云会更深层次的参与 Mooncake 项目的共建,携手更多企业、机构、高校力量,持续探索更加高效和先进的模型推理系统架构创新,让大模型技术真正惠及千行百业。


Mooncake 项目开源地址:

https://github.com/kvcache-ai/mooncake

2024-11-28 09:5813881

评论 1 条评论

发布
用户头像
https://github.com/kvcache-ai/Mooncake 这上面没有代码,代码放在哪里了
2024-11-22 20:15 · 中国香港
回复
没有更多了

蔚来汽车 x TiDB丨单表超 20 亿条数据,从 MySQL 到 TiDB 的迁移思考与实践

PingCAP

MySQL TiDB 蔚来

【JavaScript】前端算法题 40道题+解析

EquatorCoco

JavaScript 前端 前端算法

开放签电子签章系统终于支持docker部署方式了

开放签开源电子签章

Docker 镜像 电子签章

【Java】Jsoup 解析HTML报告

不在线第一只蜗牛

Java html

沧州杨埕水库:创建巡检“二维码”,为安全管理赋能

草料二维码

安全管理 设备管理 草料二维码 设备巡检二维码 设备巡检系统

软件测试学习笔记丨BlueOcean 安装与使用

测试人

软件测试

开发体育赛事转播软件平台的成功之道:确定目标市场的需求

软件开发-梦幻运营部

会声会影发光字体制作 会声会影字体怎么淡化退出 视频剪辑制作教程

阿拉灯神丁

字幕 会声会影2023 视频剪辑软件下载 视频剪辑软件

基于人工智能的代码分析与 Bug 检测实战

霍格沃兹测试开发学社

三星Galaxy Z Flip6:内外兼修小折花魁,解锁科技改变生活新方式

科技热闻

OpenTiny HUICharts 正式开源发布,一个简单、易上手的图表组件库

OpenTiny社区

Vue js eCharts OpenTiny

电车风噪大?巧妙利用空气动力学和仿真技术,解决风噪影响

Altair RapidMiner

汽车 仿真 汽车仿真 altair 新能源车

JavaScript 中的闭包和事件委托

不在线第一只蜗牛

JavaScript 前端

Netty的源码分析和业务场景

快乐非自愿限量之名

php Netty 开发语言

唯品会商品列表数据接口详解与实战应用(VIP.item_search)

tbapi

唯品会商品列表数据接口 唯品会API接口 唯品会

万字干货:从消息流平台Serverless之路,看Serverless标准演进

快乐非自愿限量之名

数据库 Serverless 服务器

AI大模型在业务受理的智能化实践和探索

鲸品堂

运营商 大模型 企业服务大模型

面试官:说说你的项目亮点?

王磊

Java

基于Golang实现Kubernetes边车模式

俞凡

golang 架构 微服务

如何判断IP地址属于住宅IP还是机房IP

IPIDEA全球HTTP

代理IP

TCL 实业 x TiDB丨从分销转向零售,如何考虑中台建设和数据库选型?

PingCAP

TCL 营销中台 实业

3个办公网站,助你又快又好地搞定工作总结ppt!

彭宏豪95

效率工具 职场 PPT 效率办公 AI生成PPT

跨平台数据同步:京东商品详情API的多平台支持

技术冰糖葫芦

api 货币化 API 文档 API 测试 pinduoduo API

JAVA应用CPU跳点自动DUMP工具

京东科技开发者

聊聊JVM如何优化

京东科技开发者

TiKV Raft 快照全流程丨TiKV 源码解读(二十二)

PingCAP

数据库 TiKV 源码解读 TiKV

【京东云新品发布月刊】2024年7月产品动态

京东科技开发者

淘宝天猫商品详情API:商品参数对比与选择

技术冰糖葫芦

API api 货币化 API 文档 API 测试

微软将深度整合 Azure AI 与 GitHub;Stability AI 0.5 秒生成三维建模丨 RTE 开发者日报

声网

ETL数据集成丨将GreenPlum数据同步至Doris数仓

RestCloud

Doris greenplum 数据同步 ETL 数据集成工具

Mooncake 正式开源!阿里云与清华大学共建AI大模型推理项目,加速大模型推理技术发展_生成式 AI_凌敏_InfoQ精选文章