蚂蚁集团高级专家马介悦将在AICon北京分享DLRover在万卡规模大模型训练中的稳定性实践

6 月 27 日-6 月 28 日，AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践，邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家，深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。

蚂蚁集团高级专家马介悦已确认出席并发表题为《DLRover在万卡规模大模型训练中的稳定性实践》的主题分享。随着 ChatGPT 的横空出世，在 Scaling Law 的驱动下，大模型训练规模呈指数级增长，但随之而来的稳定性问题频发，导致大量 GPU 计算资源浪费。如何实现训练异常的快速发现与容错，保障模型第一时间恢复训练，成为提升训练效率的关键。

本次演讲将从万卡大模型训练的痛点出发，以业界通用的有效训练时长为核心指标，系统性介绍大模型训练稳定性的挑战，并结合蚂蚁集团的实践经验，重点介绍开源项目 DLRover（分布式训练容错框架）和 XPUTimer（性能分析工具），整体提升训练稳定性的关键技术难点。目前业界对蚂蚁的国产卡训练也表现了极大的兴趣，本次演讲也会把国产卡场景下的踩坑经历和大家一起分享。

马介悦目前负责开源项目 DLRover，专注于 AI 训练引擎的稳定性和性能相关工作。硕士毕业于东南大学计算机系，有超过十年的系统软件及云计算研发经验。先后就职于阿里云，蚂蚁集团，并担任蚂蚁容器团队负责人。他在本次会议的详细演讲内容如下：

演讲提纲
1. 引言
2. 万卡大模型训练的痛点和挑战
业界 SOTA
基础设施的交付和运维挑战
任务快速容错挑战
3. 核心技术介绍与实践：DLRover、XPUTimer
4. 典型案例分析
任务 hang 解决方案
慢节点探测与定位
国产卡场景
5. 总结展望
您认为，这样的技术在实践过程中有哪些痛点？
国产卡异构性较强，我们只是介绍了昇腾的产品，其他诸如寒武纪等其他国产卡并未有涉及。
您的演讲有哪些前沿亮点？
万卡规模训练如何高效容错，探测性能瓶颈，以及常见疑难问题的解决方案
国产卡场景下如何提升训练稳定性
如何使用先进的性能分析工具 xputimer
听众收益
了解到大规模训练场景下的关键挑战与解决方案
了解到蚂蚁集团在这方面的开源贡献，并应用到自己的生产环境实践中

除此之外，本次大会还策划了AI Agent 构建与多场景实践、多模态实践与应用、大模型助力研发的实战经验、AI 在业务运营中的深度落地、大模型时代的数据处理与分析、AI 变革下的工程师等 10 多个专题论坛，届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。

目前，所有大会演讲嘉宾已结集完毕，了解更多报名和详情可扫码或联系票务经理 13269078023 咨询。

创作场景

蚂蚁集团高级专家马介悦将在 AICon 北京分享 DLRover 在万卡规模大模型训练中的稳定性实践