写点什么

月之暗面稳定高效的 LLM 基础设施构建之道 | QCon 北京

  • 2025-03-19
    北京
  • 本文字数:887 字

    阅读完需:约 3 分钟

月之暗面稳定高效的 LLM 基础设施构建之道 | QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。


月之暗面系统工程师黄维啸已确认出席并发表题为《月之暗面稳定高效的 LLM 基础设施构建之道》的主题分享,重点介绍月之暗面在训推混部集群中的实践经验,探讨如何快速定位并隔离故障,实现任务的高效恢复,从而提升系统整体稳定性。另外还会分享如何在资源有限的情况下最大化利用率,避免浪费,并进一步将该思路应用于强化学习任务的训练中。



黄维啸毕业于清华大学,拥有 7 年 AI Infra 系统经验。目前在月之暗面负责 Infra 平台、系统优化相关工作。曾在旷视科技公司主导公司 AI 平台 Brain++ 从 0 到 1 的研发工作。他在本次会议的详细演讲内容如下:


演讲提纲

1. 大规模训练推理集群的挑战

  • 大规模集群中机器故障频率高,任务失败率高

  • 推理场景中的用户请求具备潮汐效应

  • 强化学习场景存在资源浪费情况

2. 提高训推混部集群稳定性和资源利用率

  • 任务检查点的高效存储和回复

  • 故障节点快速发现和隔离,提高训练可观察性,快速找到慢节点

  • 潮汐优先级调度,最大化提高资源利用率

3. 通过混合架构提高强化学习效率

  • 混合 Sidecar 部署架构

  • 训推任务高效切换


您认为,这样的技术在实践过程中有哪些痛点?

  • 大规模集群中机器故障问题难以彻底解决,系统上需要做一些权衡

  • 训推混部集群存在资源利用率不均衡的问题


演讲亮点

  • 通过实际大规模集群的训推混部经验以及框架侧的优化,真实提高了整个系统的可靠性和可扩展性


听众收益

  • 了解大模型训练和推理中遇到的稳定性问题及相关实践方案,并进一步提高资源利用率

  • 了解在强化学习中如何高效利用显存并提高系统可扩展性


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。



2025-03-19 10:263862

评论

发布
暂无评论

一文详解多模态认知智能

华为云开发者联盟

人工智能 华为云 AIGC 华为云开发者联盟 企业号 4 月 PK 榜

Apache Flink ML 2.2.0 发布公告

阿里云大数据AI技术

大数据 算法 企业号 4 月 PK 榜

逆天!腾讯大神纯手撸“架构师速成手册”Github狂获4.5kstar

Java你猿哥

Java 架构 ssm 架构设计 架构师

亿级日活业务稳如磐石,华为云CodeArts PerfTest发布

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 4 月 PK 榜

阿里限量的性能调优+微服务+高并发设计,真的太香了!

Java 微服务架构 系统设计 性能调优 亿级并发

与全球开发者创新共赢,全球首个“开发者村” 正式落成

极客天地

ByteHouse云数仓版查询性能优化和MySQL生态完善

NineData

数据库 架构 字节跳动 Clickhouse bytehouse

蚂蚁安全科技 Nydus 镜像加速实践

SOFAStack

开源 镜像 镜像安全 OCI Nydus

人脸活体检测初识

六月的雨在InfoQ

人脸活体检测 三周年连更 人脸数据库 人脸辨识度

HashData认证云原生数据仓库管理工程师培训报名开启!

酷克数据HashData

裸辞底气!GitHub飙升“java面试笔记2023” 了解下八股文天花板

Java你猿哥

Java 面试 Spring Boot ssm 八股文

合合信息新推出反光消除技术,助力手写文字识别更精准

合合技术团队

人工智能 文字识别 扫描全能王 反光去除

读书笔记丨远程服务调用和RESTful,如何分析和抉择?

华为云开发者联盟

开发 华为云 华为云开发者联盟 企业号 4 月 PK 榜 远程服务调用

Apifox WebSocket 调试功能你会用了吗?

Apifox

程序员 接口 websocket API API 调试

运维报表有哪些内容?有什么用?

行云管家

运维 报表 IT运维 容器化部署

聊聊 IP packet 的 TTL 与 tcp segment 的 MSL

明哥的IT随笔

TCP/IP TTL MSL

Spring Boot 整合 Redis 基于 Stream 消息队列 实现异步秒杀下单

Java你猿哥

Java redis stream ssm 消息队列

区块链基础设施 NFTScan 新增支持 Aptos 网络

NFT Research

区块链+ NFT

从源码全面解析LinkedBlockingQueue的来龙去脉

eBPF的发展演进---从石器时代到成为神(二)

统信软件

Linux Kenel 内核 Linux内核

堡垒机英文是什么?有哪些品牌?

行云管家

网络安全 堡垒机

YARN 远程代码执行(RCE)安全漏洞问题分析与解决方案

明哥的IT随笔

大数据 YARN 数据安全 RCE

那些关于DIP器件不得不说的坑

华秋PCB

插件 DIP 元器件 PCB PCB设计

Spring Boot 整合 Redis 基于 Stream 消息队列 实现异步秒杀下单

阿里新一代微服务,内部大佬手抄的笔记+脑图不容错过,全是精华

Java 架构 微服务 Spring Cloud Aliababa

从此脱离CRUD!Github热榜第三架构师速成手册成功颠覆了我的认知

Java你猿哥

架构 ssm 架构设计 架构师 微服务实战

本铯智能科技是家怎样的共享电动车厂家?

共享电单车厂家

共享电动车厂家 共享电单车厂商 本铯智能科技 本铯智能电动车厂家

聊聊 Zookeeper 的 4lw 与信息安全

明哥的IT随笔

zookeeper 数据安全

【FAQ】关于JavaScript版本的华为地图服务Map的点击事件与Marker的点击事件存在冲突的解决方案

HarmonyOS SDK

HMS Core

阿里技术官神作!大厂亿级流量性能调优学习手册,堪称保姆级教学

Java 性能优化 性能调优

ChatGPT 会在三年内终结编程吗?| 社区征文

神木鼎

三周年征文

月之暗面稳定高效的 LLM 基础设施构建之道 | QCon北京_AI&大模型_QCon全球软件开发大会_InfoQ精选文章