写点什么

月之暗面稳定高效的 LLM 基础设施构建之道 | QCon 北京

  • 2025-03-19
    北京
  • 本文字数:887 字

    阅读完需:约 3 分钟

月之暗面稳定高效的 LLM 基础设施构建之道 | QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。


月之暗面系统工程师黄维啸已确认出席并发表题为《月之暗面稳定高效的 LLM 基础设施构建之道》的主题分享,重点介绍月之暗面在训推混部集群中的实践经验,探讨如何快速定位并隔离故障,实现任务的高效恢复,从而提升系统整体稳定性。另外还会分享如何在资源有限的情况下最大化利用率,避免浪费,并进一步将该思路应用于强化学习任务的训练中。



黄维啸毕业于清华大学,拥有 7 年 AI Infra 系统经验。目前在月之暗面负责 Infra 平台、系统优化相关工作。曾在旷视科技公司主导公司 AI 平台 Brain++ 从 0 到 1 的研发工作。他在本次会议的详细演讲内容如下:


演讲提纲

1. 大规模训练推理集群的挑战

  • 大规模集群中机器故障频率高,任务失败率高

  • 推理场景中的用户请求具备潮汐效应

  • 强化学习场景存在资源浪费情况

2. 提高训推混部集群稳定性和资源利用率

  • 任务检查点的高效存储和回复

  • 故障节点快速发现和隔离,提高训练可观察性,快速找到慢节点

  • 潮汐优先级调度,最大化提高资源利用率

3. 通过混合架构提高强化学习效率

  • 混合 Sidecar 部署架构

  • 训推任务高效切换


您认为,这样的技术在实践过程中有哪些痛点?

  • 大规模集群中机器故障问题难以彻底解决,系统上需要做一些权衡

  • 训推混部集群存在资源利用率不均衡的问题


演讲亮点

  • 通过实际大规模集群的训推混部经验以及框架侧的优化,真实提高了整个系统的可靠性和可扩展性


听众收益

  • 了解大模型训练和推理中遇到的稳定性问题及相关实践方案,并进一步提高资源利用率

  • 了解在强化学习中如何高效利用显存并提高系统可扩展性


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。



2025-03-19 10:263400

评论

发布
暂无评论

OpenHarmony开发者大会2024:解读技术革新,共筑生态互联

极客天地

同济大学胡维老师分享经管科研范式变革下的工具与实践|和鲸社区“101数智领航计划”

ModelWhale

科研 同济大学 经济与管理

一键解锁!贸易行业实现银行与财务系统秒级对接,效率飙升!

聚道云软件连接器

案例分享

走进京东“卓越研效架构师”首期研习营圆满收官

京东科技开发者

为何都在谈低代码?快速了解低代码技术在ITSM中的应用

嘉为蓝鲸

低代码 ITSM 流程管理

滴滴面试:谈谈你对Netty线程模型的理解?

王磊

省运营商构建松耦合IT运营监控支撑体系

嘉为蓝鲸

研发管理 敏捷管理 运营商 IT运维

JSON vs XML:比较及分析

Liam

json xml 前端 Web 后端

为什么比特币需要智能合约

web3区块链创业团队DappNetWork

代码生成流程图!画图必备的3款AI流程图软件推荐!

彭宏豪95

人工智能 流程图 流程图绘制工具 AIGC 绘图软件

一文简述「低代码」到底是什么?

优秀

低代码 低代码开发平台 低代码平台

Pandas数据读取三连“坑”

我再BUG界嘎嘎乱杀

Python 后端 开发语言

华为大咖说 | 企业应用AI大模型的“道、法、术”—— 法:场景篇

华为云PaaS服务小智

人工智能 华为云 企业数字化

数据同步新突破!一招解决文化公司系统对接难题!

聚道云软件连接器

案例分享

业技融合:“业、产、研”一体的需求管理指南

嘉为蓝鲸

DevOps 研发管理 产研团队

大模型应用之基于Langchain的测试用例生成

京东科技开发者

机器学习的六个核心算法!

不在线第一只蜗牛

人工智能 机器学习 算法

活动预告|6月13日Apache Flink Meetup·香港站

Apache Flink

flink Alibaba

聊聊python多线程与多进程

我再BUG界嘎嘎乱杀

Python 后端 多线程 多进程

一文看懂可观测:盯得住系统,扛得住稳定

阿里巴巴云原生

阿里云 云原生 可观测

Python零基础“圣经”!300W小白从入门到精通首选!

我再BUG界嘎嘎乱杀

Python 入门 零基础

月之暗面稳定高效的 LLM 基础设施构建之道 | QCon北京_AI&大模型_QCon全球软件开发大会_InfoQ精选文章