10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

蚂蚁集团高级专家马介悦将在 AICon 北京分享 DLRover 在万卡规模大模型训练中的稳定性实践

  • 2025-06-16
    北京
  • 本文字数:1079 字

    阅读完需:约 4 分钟

大小:584.02K时长:03:19
蚂蚁集团高级专家马介悦将在AICon北京分享DLRover在万卡规模大模型训练中的稳定性实践

6 月 27 日-6 月 28 日,AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践,邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家,深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。


蚂蚁集团高级专家马介悦已确认出席并发表题为《DLRover在万卡规模大模型训练中的稳定性实践》的主题分享。随着 ChatGPT 的横空出世,在 Scaling Law 的驱动下,大模型训练规模呈指数级增长,但随之而来的稳定性问题频发,导致大量 GPU 计算资源浪费。如何实现训练异常的快速发现与容错,保障模型第一时间恢复训练,成为提升训练效率的关键。


本次演讲将从万卡大模型训练的痛点出发,以业界通用的有效训练时长为核心指标,系统性介绍大模型训练稳定性的挑战,并结合蚂蚁集团的实践经验,重点介绍开源项目 DLRover(分布式训练容错框架)和 XPUTimer(性能分析工具),整体提升训练稳定性的关键技术难点。目前业界对蚂蚁的国产卡训练也表现了极大的兴趣,本次演讲也会把国产卡场景下的踩坑经历和大家一起分享。



马介悦目前负责开源项目 DLRover,专注于 AI 训练引擎的稳定性和性能相关工作。硕士毕业于东南大学计算机系,有超过十年的系统软件及云计算研发经验。先后就职于阿里云,蚂蚁集团,并担任蚂蚁容器团队负责人。他在本次会议的详细演讲内容如下:


演讲提纲

1. 引言

2. 万卡大模型训练的痛点和挑战

  • 业界 SOTA

  • 基础设施的交付和运维挑战

  • 任务快速容错挑战

3. 核心技术介绍与实践:DLRover、XPUTimer

4. 典型案例分析

  • 任务 hang 解决方案

  • 慢节点探测与定位

  • 国产卡场景

5. 总结展望


您认为,这样的技术在实践过程中有哪些痛点?

  • 国产卡异构性较强,我们只是介绍了昇腾的产品,其他诸如寒武纪等其他国产卡并未有涉及。


您的演讲有哪些前沿亮点?

  • 万卡规模训练如何高效容错,探测性能瓶颈,以及常见疑难问题的解决方案

  • 国产卡场景下如何提升训练稳定性

  • 如何使用先进的性能分析工具 xputimer


听众收益

  • 了解到大规模训练场景下的关键挑战与解决方案

  • 了解到蚂蚁集团在这方面的开源贡献,并应用到自己的生产环境实践中


除此之外,本次大会还策划了AI Agent 构建与多场景实践多模态实践与应用大模型助力研发的实战经验AI 在业务运营中的深度落地大模型时代的数据处理与分析AI 变革下的工程师等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情可扫码或联系票务经理 13269078023 咨询。



2025-06-16 17:003437

评论

发布
暂无评论

作业一:食堂就餐卡系统设计

亮灯

架构方法 - 架构师如何做架构总结(1)

Paula_l

架构师训练营第1周-食堂就餐卡系统设计

海滨

极客大学架构师训练营

【第一周】食堂就餐卡架构设计

星星

架构师训练营week01-食堂就餐卡系统设计

Just顾

食堂就餐卡系统设计

漫步跑小鸡

架构师-悟性和技能

yupi

架构师-Week1作业

龙7

极客大学架构师训练营

就餐卡系统设计文档 【第一周】

mylove321

把生活找回来

zhoo299

随笔杂谈

架构师训练营学习总结

weijin

week01-就餐卡系统架构设计

强哥

极客大学架构师训练营

「架构师训练营」第一周总结

极客

训练营第一周学习总结

毛叫

极客时间 极客大学架构师训练营

架构师0期第一周总结

Nan Jiang

架构师训练营第一周学习总结

跨域刀

极客大学架构师训练营

《架构师训练营》第一周学习总结

信息的表示与存储-浮点数的表示

引花眠

计算机基础

架构homework1-2

蜡笔小晗

【架构师week01】总结

高程

总结 架构师

架构师训练营Week 01 学习总结

Just顾

架构师训练营 第一周 作业

极客大学架构师训练营

第一周作业(2)

佳明

【架构师week01】作业

高程

架构师 作业

架构师训练营第1周作业

一叶知秋

「架构师训练营」第 1 周作业 - 食堂就餐卡系统设计

butterfly

就餐系统架构设计

草原上的奔跑

极客大学架构师训练营

ARTS打卡 第3周

引花眠

ARTS 打卡计划

架构师、架构

stars

食堂就餐卡系统设计

走过路过飞过

架构师如何进行软件架构设计学习总结

一点点..

蚂蚁集团高级专家马介悦将在AICon北京分享DLRover在万卡规模大模型训练中的稳定性实践_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章