写点什么

郑纬民院士携最佳论文出席 QCon:月之暗面 Kimi 大模型推理架构 Mooncake 全网最权威解读

  • 2025-03-31
    北京
  • 本文字数:1941 字

    阅读完需:约 6 分钟

郑纬民院士携最佳论文出席QCon:月之暗面Kimi 大模型推理架构 Mooncake全网最权威解读

近日,中国工程院院士/清华大学教授/博士生导师郑纬民确认出席 QCon 北京大会发表题为《关于人工智能大模型的几点思考》的主题演讲,并将分享 Kimi 幕后的大模型推理架构 Mooncake。


2025 年,人工智能加速从单模态向多模态发展,大模型在各行业广泛落地。在此进程中,人工智能大模型生命周期的各个环节对算力和存储产生了爆发式需求。数据获取时,海量小文件存储面临挑战;数据预处理开销成为大模型训练瓶颈;模型训练任务负载重、硬件出错概率高;模型微调需平衡数据规模与质量;模型推理存在算力困境。


这些问题该如何解决?在当前大模型产品中又如何落地相应解决方案?郑纬民将在本次演讲中结合 Kimi 幕后的大模型推理架构 Mooncake 对以上问题进行深入剖析。Kimi 从初期频繁算力扩容仍宕机,到如今能平稳承载高速增长的流量,Mooncake 发挥了关键作用,且该成果已于近期荣获第 23 届 USENIX 文件与存储技术会议(FAST25)最佳论文奖(https://www.cs.tsinghua.edu.cn/info/1034/6611.htm)。



Mooncake 采用一种以键值缓存(KVCache)为中心的分离架构,不仅将预填充和解码集群分开,还高效利用了推理集群中未充分利用的 CPU、DRAM、SSD 和 NIC 资源,建立了一个分离的 KVCache 缓存池。其核心创新在于以 KVCache 为中心的全局缓存和调度器,旨在严格的延迟相关服务级别目标(SLOs)下最大化吞吐量。


实验表明,Mooncake 在处理长上下文输入的场景中表现出色。在使用真实数据进行的测试中,与基线方法相比,Mooncake 在符合 SLOs 的情况下,将有效请求处理能力提高了 59%~498%。目前,Mooncake 已在数千个节点上运行,每天处理超过 1000 亿个 token。在实际部署中,Mooncake 的创新架构使 Kimi 在 NVIDIA A800 和 H800 集群上分别比以前的系统多处理 115%和 107%的请求。


相关文章:Mooncake 分离式推理架构创新与实践


郑纬民院士在本次会议的详细演讲内容如下:


演讲提纲

1、2025 年 AI 大模型的两个特点:阐述 AI 大模型从单模态迈向多模态的发展趋势,以及在各行业落地带来的变革。

2、人工智能大模型生命周期的五个环节

  • 数据获取:收集不同模态海量文件时,面临海量小文件存储难题,如元数据管理困难、现有文件系统难以满足需求等。

  • 数据预处理:对分布式技术提出挑战,其开销逐渐制约大模型训练,需创新数据处理方式。

  • 模型训练:检查点文件读写对存储系统要求高,现有策略性能不佳,需优化存储策略以应对硬件错误和大规模数据存储需求。

  • 模型微调:精调垂域模型需要可控算力,同时要平衡数据规模与质量,以提升模型在特定领域的性能。

  • 模型推理:实时处理用户请求,需要稳定可靠算力,当前面临算力困境,需探索新的推理架构和优化方法。

3、构建国产智算系统的核心基础软件

  • 清华大学 “八卦炉” 智算系统解析:介绍 “八卦炉” 在国产超算上的应用,以及对多种国产芯片的支持和性能优化成果。

  • Mooncake——Kimi 幕后的大模型推理架构:剖析 Mooncake 以 KVCache 为中心的架构设计、工作原理和优势,以及其在提升 Kimi 性能方面的关键作用。

4、三步让企业明确如何利用 AI 大模型:指导企业通过明确关键问题、评估数据质量、判断人力与 AI 的适用性,以及选择和微调模型等步骤,有效利用 AI 大模型实现转型发展。


听众受益

  1. 清晰把握大模型的技术发展趋势

  2. 全面熟知人工智能大模型开发生命周期各环节的问题与解决方案

  3. 深入了解 Kimi 背后的大模型推理架构

  4. 掌握判断企业是否适合利用 AI 大模型转型的方法

 

除了郑纬民院士的权威解读之外,月之暗面系统工程师黄维啸也将在「面向 AI 的研发基础设施」专题论坛上分享《月之暗面稳定高效的 LLM 基础设施构建之道》,重点介绍月之暗面在训推混部集群中的实践经验,探讨如何快速定位并隔离故障,实现任务的高效恢复,从而提升系统整体稳定性。另外还会分享如何在资源有限的情况下最大化利用率、避免浪费,并进一步将该思路应用于强化学习任务的训练中。



2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。届时,腾讯安全副总裁、腾讯玄武实验室负责人于旸(TK)、亚马逊云科技大中华区产品技术总监王晓野、微软亚太人工智能黑带团队技术总经理曾臻(Vickie)、原网易集团副总裁 / 杭州研究院执行院长/现杭州久痕科技 CEO 汪源博士等重磅嘉宾也将在主论坛分享各自领域内的洞察和实践。


本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


点击链接查看大会报名信息 &更多内容:https://qcon.infoq.cn/2025/beijing/schedule

2025-03-31 08:083283

评论

发布
暂无评论

Python 爬虫实战(一) 爬取自如网租房信息

U2647

python 爬虫 4月日更

精通比特币:为什么它对自由、财务和未来至关重要(上篇)

CECBC

比特币

朱嘉明:算力产业正面临着一个十年的长周期

CECBC

数字经济

关于数字人民币、加密货币,央行前行长周小川、副行长李波博鳌论坛发声

CECBC

数字货币

领域驱动设计 101- 上下文与持续集成

luojiahu

领域驱动设计 DDD

【提纲】专访融云 CTO 杨攀 | 物联网城池应用和发展

李孟聊AI

调查采访能力考核

为什么我愿意持续做这样一件看似没有价值的事情

帅安技术

坚持 持续写作 长期价值

斗智亦斗棋,零售云市场的“楚河汉界”突围赛

脑极体

面试4轮字节Java研发岗,最终拿下Offer(原题复盘)

码农之家

编程 程序员 互联网 面试 字节

专访声网首席科学家钟声|倾听不一样的“钟声”,声网实时互动服务

程序员架构进阶

28天写作 4月日更 调查采访能力考核 人物访谈

在gitee码云上搭建一个网站

空城机

JavaScript 大前端 gitee 4月日更 搭建网页

模块2的作业

谢博琛

对话声网 Agora 首席科学家钟声 :声网的未来规划和人才建议

小诚信驿站

采访 调查采访能力考核

如何从零开始学Python:(3)划重点:使用IDLE创建列表时需要注意的地方

广之巅

Python 4月日更

MySQL 死锁套路:再来看一例走不同索引更新的例子

AI乔治

Java MySQL 架构

为什么微服务一定要有 API 网关?

xcbeyond

微服务 api 网关 4月日更

访谈阿里巴巴安全科学家吴翰清

容光

专访 阿里吴翰清 最新网络安全

ElasticSearch 如何使用 TDigest 算法计算亿级数据的百分位数?

程序员历小冰

大数据 elasticsearch 近似算法 TDgigest

Ansible 介绍

耳东@Erdong

4月日更

Lombok初始使用及遇到的问题

风翱

lombok 4月日更

python 变量作用域和列表

若尘

变量 Python编程 作用域

ARTS- Week 7

steve_lee

奇绩创坛2021秋季创业营开始报名

奇绩创坛

《采访彩食鲜 CTO 乔新亮:IT 团队从 100 到 10000 的管理心得》(采访提纲)

程序员历小冰

调查采访能力考核

对话声网 Agora 首席科学家钟声 :5G时代到来前景下RTE实时互动技术的应用与发展

麦洛

Java

Excelize 2.4.0 正式版发布, 新支持 152 项公式函数

xuri

GitHub 开源 Excel Go 语言 Excelize

【AI全栈二】视频流多目标多类别无延迟高精度高召回目标追踪

cv君

音视频 目标检测 视频跟踪 引航计划

Go Goroutine

escray

学习 极客时间 Go 语言 4月日更

架构实战营 模块2 课后作业

༺NPE༻

【提纲】专访融云CTO杨攀 | 技术型人才的自我修炼

Python研究所

调查采访能力考核

由 JVM Attach API 看跨进程通信中的信号和 Unix 域套接字

AI乔治

Java 架构 JVM 性能调优

郑纬民院士携最佳论文出席QCon:月之暗面Kimi 大模型推理架构 Mooncake全网最权威解读_AI&大模型_QCon全球软件开发大会_InfoQ精选文章