写点什么

月之暗面稳定高效的 LLM 基础设施构建之道 | QCon 北京

  • 2025-03-19
    北京
  • 本文字数:887 字

    阅读完需:约 3 分钟

月之暗面稳定高效的 LLM 基础设施构建之道 | QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。


月之暗面系统工程师黄维啸已确认出席并发表题为《月之暗面稳定高效的 LLM 基础设施构建之道》的主题分享,重点介绍月之暗面在训推混部集群中的实践经验,探讨如何快速定位并隔离故障,实现任务的高效恢复,从而提升系统整体稳定性。另外还会分享如何在资源有限的情况下最大化利用率,避免浪费,并进一步将该思路应用于强化学习任务的训练中。



黄维啸毕业于清华大学,拥有 7 年 AI Infra 系统经验。目前在月之暗面负责 Infra 平台、系统优化相关工作。曾在旷视科技公司主导公司 AI 平台 Brain++ 从 0 到 1 的研发工作。他在本次会议的详细演讲内容如下:


演讲提纲

1. 大规模训练推理集群的挑战

  • 大规模集群中机器故障频率高,任务失败率高

  • 推理场景中的用户请求具备潮汐效应

  • 强化学习场景存在资源浪费情况

2. 提高训推混部集群稳定性和资源利用率

  • 任务检查点的高效存储和回复

  • 故障节点快速发现和隔离,提高训练可观察性,快速找到慢节点

  • 潮汐优先级调度,最大化提高资源利用率

3. 通过混合架构提高强化学习效率

  • 混合 Sidecar 部署架构

  • 训推任务高效切换


您认为,这样的技术在实践过程中有哪些痛点?

  • 大规模集群中机器故障问题难以彻底解决,系统上需要做一些权衡

  • 训推混部集群存在资源利用率不均衡的问题


演讲亮点

  • 通过实际大规模集群的训推混部经验以及框架侧的优化,真实提高了整个系统的可靠性和可扩展性


听众收益

  • 了解大模型训练和推理中遇到的稳定性问题及相关实践方案,并进一步提高资源利用率

  • 了解在强化学习中如何高效利用显存并提高系统可扩展性


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。



2025-03-19 10:263680

评论

发布
暂无评论

Apache APISIX 社区双周报 | 11.15-11.30 功能亮点更新进行中

API7.ai 技术团队

开源 云原生 网关 api 网关 Apache APISIX

【云小课】CDN第5课 CDN入门之—我的网站可以用CDN加速吗?

华为云开发者联盟

网站 CDN 网络 CDN加速 华为云CDN

Hutool中那些常用的工具类和方法

编程江湖

JAVA开发 java工具包

MySQL only_full_group_by 1055 报错的三种解决方案,临时关闭有影响吗?

蒋川

MySQL 报错 MySQL 数据库

Rust 元宇宙 11 —— Websocket

Miracle

rust websocket 元宇宙

前端开发面试题分享,看一下是不是你需要的

@零度

大前端 面试题

Springboot & RabbitMQ 延时队列的使用

编程江湖

大数据 消息中间件

数字化转型鸿沟如何消除?ROMA Connect融合集成,联接企业应用现在与未来

华为云开发者联盟

多云服务 应用 集成 集成平台 ROMA Connect

大咖联袂发布!《慧技术·惠金融——2022金融科技趋势研究报告》开放下载

恒生LIGHT云社区

金融科技 行业趋势 行业大会

工具 | PG 集群复制管理工具 repmgr

RadonDB

数据库 postgresql RadonDB

恒源云(GPUSHARE)_分享一个技巧!CV训练时容易忽视的数据标签问题

恒源云

深度学习 算法 CV

【12月11日】真香现场,带你玩转 EKS!

亚马逊云科技 (Amazon Web Services)

人工智能 Meetup EKS

Apache APISIX 2.11.0 正式发布,蓄力两月带来更多新功能!

API7.ai 技术团队

开源 云原生 网关 API网关 Apache APISIX

如何使用GoldWave软件将文字转换为语音

懒得勤快

Java开发之如何连接Redis

@零度

redis JAVA开发

迈向云原生:名企FreeWheel应用架构演进

博文视点Broadview

极光笔记|百亿级KV存储在极光的运维实践之路

极光GPTBots-极光推送

推开“微前端”的门

百度Geek说

微服务 大前端

最受欢迎的5个React动画库

编程江湖

React

带你了解Typescript的14个基础语法

华为云开发者联盟

typescript 数组 开发 js 语法

Redis玩转Message Queue之Stream详述

李子捌

redis 28天写作 Redis Stream 12月日更

六个数字化意识和习惯

明道云

JDK 动态代理与 CGLIB 动态代理,它俩真的不一样

华为云开发者联盟

jdk 动态代理 spring aop JDK 动态代理 CGLIB 动态代理

Spark SQL之RDD转换DataFrame的方法

@零度

大数据 RDD DataFrame spark SQL

web技术分享| AudioContext 实现音频可视化

anyRTC开发者

Web 音视频 WebRTC 音频可视化 AudioContext

刚提测就改需求,我是渣男吗?

小傅哥

Java 加班 小傅哥 需求迭代 产品功能

运维监控场景下,如何从OpenTSDB迁移到TDengine

TDengine

数据库 tdengine

python 爬虫爱好者必须掌握的知识点“ 协程爬虫”,看一下如何用 gevent 采集女生用头像

梦想橡皮擦

12月日更

Go语言学习查缺补漏ing Day1

恒生LIGHT云社区

编程语言 Go 语言

Rust 元宇宙 从零开始构建

Miracle

rust 元宇宙

Linux学习方法《Linux一学就会》:重定向和文件的查找

侠盗安全

月之暗面稳定高效的 LLM 基础设施构建之道 | QCon北京_AI&大模型_QCon全球软件开发大会_InfoQ精选文章