AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

郑纬民院士携最佳论文出席 QCon:月之暗面 Kimi 大模型推理架构 Mooncake 全网最权威解读

  • 2025-03-31
    北京
  • 本文字数:1941 字

    阅读完需:约 6 分钟

郑纬民院士携最佳论文出席QCon:月之暗面Kimi 大模型推理架构 Mooncake全网最权威解读

近日,中国工程院院士/清华大学教授/博士生导师郑纬民确认出席 QCon 北京大会发表题为《关于人工智能大模型的几点思考》的主题演讲,并将分享 Kimi 幕后的大模型推理架构 Mooncake。


2025 年,人工智能加速从单模态向多模态发展,大模型在各行业广泛落地。在此进程中,人工智能大模型生命周期的各个环节对算力和存储产生了爆发式需求。数据获取时,海量小文件存储面临挑战;数据预处理开销成为大模型训练瓶颈;模型训练任务负载重、硬件出错概率高;模型微调需平衡数据规模与质量;模型推理存在算力困境。


这些问题该如何解决?在当前大模型产品中又如何落地相应解决方案?郑纬民将在本次演讲中结合 Kimi 幕后的大模型推理架构 Mooncake 对以上问题进行深入剖析。Kimi 从初期频繁算力扩容仍宕机,到如今能平稳承载高速增长的流量,Mooncake 发挥了关键作用,且该成果已于近期荣获第 23 届 USENIX 文件与存储技术会议(FAST25)最佳论文奖(https://www.cs.tsinghua.edu.cn/info/1034/6611.htm)。



Mooncake 采用一种以键值缓存(KVCache)为中心的分离架构,不仅将预填充和解码集群分开,还高效利用了推理集群中未充分利用的 CPU、DRAM、SSD 和 NIC 资源,建立了一个分离的 KVCache 缓存池。其核心创新在于以 KVCache 为中心的全局缓存和调度器,旨在严格的延迟相关服务级别目标(SLOs)下最大化吞吐量。


实验表明,Mooncake 在处理长上下文输入的场景中表现出色。在使用真实数据进行的测试中,与基线方法相比,Mooncake 在符合 SLOs 的情况下,将有效请求处理能力提高了 59%~498%。目前,Mooncake 已在数千个节点上运行,每天处理超过 1000 亿个 token。在实际部署中,Mooncake 的创新架构使 Kimi 在 NVIDIA A800 和 H800 集群上分别比以前的系统多处理 115%和 107%的请求。


相关文章:Mooncake 分离式推理架构创新与实践


郑纬民院士在本次会议的详细演讲内容如下:


演讲提纲

1、2025 年 AI 大模型的两个特点:阐述 AI 大模型从单模态迈向多模态的发展趋势,以及在各行业落地带来的变革。

2、人工智能大模型生命周期的五个环节

  • 数据获取:收集不同模态海量文件时,面临海量小文件存储难题,如元数据管理困难、现有文件系统难以满足需求等。

  • 数据预处理:对分布式技术提出挑战,其开销逐渐制约大模型训练,需创新数据处理方式。

  • 模型训练:检查点文件读写对存储系统要求高,现有策略性能不佳,需优化存储策略以应对硬件错误和大规模数据存储需求。

  • 模型微调:精调垂域模型需要可控算力,同时要平衡数据规模与质量,以提升模型在特定领域的性能。

  • 模型推理:实时处理用户请求,需要稳定可靠算力,当前面临算力困境,需探索新的推理架构和优化方法。

3、构建国产智算系统的核心基础软件

  • 清华大学 “八卦炉” 智算系统解析:介绍 “八卦炉” 在国产超算上的应用,以及对多种国产芯片的支持和性能优化成果。

  • Mooncake——Kimi 幕后的大模型推理架构:剖析 Mooncake 以 KVCache 为中心的架构设计、工作原理和优势,以及其在提升 Kimi 性能方面的关键作用。

4、三步让企业明确如何利用 AI 大模型:指导企业通过明确关键问题、评估数据质量、判断人力与 AI 的适用性,以及选择和微调模型等步骤,有效利用 AI 大模型实现转型发展。


听众受益

  1. 清晰把握大模型的技术发展趋势

  2. 全面熟知人工智能大模型开发生命周期各环节的问题与解决方案

  3. 深入了解 Kimi 背后的大模型推理架构

  4. 掌握判断企业是否适合利用 AI 大模型转型的方法

 

除了郑纬民院士的权威解读之外,月之暗面系统工程师黄维啸也将在「面向 AI 的研发基础设施」专题论坛上分享《月之暗面稳定高效的 LLM 基础设施构建之道》,重点介绍月之暗面在训推混部集群中的实践经验,探讨如何快速定位并隔离故障,实现任务的高效恢复,从而提升系统整体稳定性。另外还会分享如何在资源有限的情况下最大化利用率、避免浪费,并进一步将该思路应用于强化学习任务的训练中。



2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。届时,腾讯安全副总裁、腾讯玄武实验室负责人于旸(TK)、亚马逊云科技大中华区产品技术总监王晓野、微软亚太人工智能黑带团队技术总经理曾臻(Vickie)、原网易集团副总裁 / 杭州研究院执行院长/现杭州久痕科技 CEO 汪源博士等重磅嘉宾也将在主论坛分享各自领域内的洞察和实践。


本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


点击链接查看大会报名信息 &更多内容:https://qcon.infoq.cn/2025/beijing/schedule

2025-03-31 08:083410

评论

发布
暂无评论

兆骑科创高层次人才创业赛事活动,创新创业人才引进平台

兆骑科创凤阁

专访容智信息柴亚团:最低调的公司如何炼成最易用的RPA?

王吉伟频道

RPA 机器人流程自动化 0代码 容智信息 柴亚团

认识一下MRS里的“中间人”Alluxio

华为云开发者联盟

大数据 MRS

编译器工程师眼中的好代码:Loop Interchange

华为云开发者联盟

c c++ 开发 编译器

【七夕限定盲盒抽奖】一文带你搞懂盲盒抽奖的页面配置

hum建应用专家

阿里云 Serverless 函数计算

培训机构与自学的优缺点都有什么

小谷哥

Jmix - 业务系统高效开发的少代码平台

世开 Coding

Java spring 快速开发平台 Jmix 少代码

深入Linux内核IO技术栈

C++后台开发

Linux内核 内核开发 驱动开发 嵌入式开发 内核操作系统

MASA Stack 第三期社区例会

MASA技术团队

Framework blazor

观测云入驻青云云市场,提升云上系统统一可观测能力

观测云

Centos系统安装MySQL数据库

杨杰灵

MySQL 数据库

苦熬三个月整理的spring全家桶PDF版限时分享,整整400页

Java工程师

Java spring Spring全家桶

最具有中国特色的微服务组件!阿里新一代SpringCloud学习指南

JAVA活菩萨

Java 程序员面试 大厂技能 秋招 大厂面经

Eclipse Debug FFmpeg

贾献华

8月月更

企业为什么要数字化转型?数字化转型成功的案例有哪些?

优秀

数字化转型

AIRIOT答疑第7期|如何快速提升物联网项目交付速度?

AIRIOT

物联网

阿里P8整理的《百亿级并发系统设计》实战教程,实在是太香了

冉然学Java

数据库 编程 架构 分布式 并发系统设计

语音聊天app开发——开发人员如何进行代码分析

开源直播系统源码

软件开发 直播源码 语音app开发

编译器工程师眼中的好代码(1):Loop Interchange

openEuler

开源 编译器 openEuler

优化客户服务的 7 个关键步骤

Geek_da0866

47K Star 的SpringBoot+MyBatis+docker电商项目,附超详细的文档

冉然学Java

数据库 项目 java; 编程、 源码学习

Python图像处理丨如何调用OpenCV绘制直方图

华为云开发者联盟

Python 人工智能

北京零基础前端软件培训

小谷哥

倪光南:openEuler已达国际同类社区水准

openEuler

开源 操作系统 openEuler

playwright录制脚本

和牛

测试 Python. 8月月更

MySQL 概念

武师叔

8月月更

Github又火了!阿里重发系统设计核心原理全彩笔记,上线两天破百万阅读

Java工程师

Java 高并发

【计算讲谈社】第七讲|AI 的价值探索:如何拓展商业边界?

大咖说

人工智能 AI 商业边界

【云原生】Spring Cloud是什么?Spring Cloud版本介绍

java李杨勇

Java spring cloud stream 签约计划第三季

学习大数据开发技术后好找工作吗?

小谷哥

郑纬民院士携最佳论文出席QCon:月之暗面Kimi 大模型推理架构 Mooncake全网最权威解读_AI&大模型_QCon全球软件开发大会_InfoQ精选文章