2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

蚂蚁集团高级专家马介悦将在 AICon 北京分享 DLRover 在万卡规模大模型训练中的稳定性实践

  • 2025-06-16
    北京
  • 本文字数:1079 字

    阅读完需:约 4 分钟

大小:584.02K时长:03:19
蚂蚁集团高级专家马介悦将在AICon北京分享DLRover在万卡规模大模型训练中的稳定性实践

6 月 27 日-6 月 28 日,AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践,邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家,深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。


蚂蚁集团高级专家马介悦已确认出席并发表题为《DLRover在万卡规模大模型训练中的稳定性实践》的主题分享。随着 ChatGPT 的横空出世,在 Scaling Law 的驱动下,大模型训练规模呈指数级增长,但随之而来的稳定性问题频发,导致大量 GPU 计算资源浪费。如何实现训练异常的快速发现与容错,保障模型第一时间恢复训练,成为提升训练效率的关键。


本次演讲将从万卡大模型训练的痛点出发,以业界通用的有效训练时长为核心指标,系统性介绍大模型训练稳定性的挑战,并结合蚂蚁集团的实践经验,重点介绍开源项目 DLRover(分布式训练容错框架)和 XPUTimer(性能分析工具),整体提升训练稳定性的关键技术难点。目前业界对蚂蚁的国产卡训练也表现了极大的兴趣,本次演讲也会把国产卡场景下的踩坑经历和大家一起分享。



马介悦目前负责开源项目 DLRover,专注于 AI 训练引擎的稳定性和性能相关工作。硕士毕业于东南大学计算机系,有超过十年的系统软件及云计算研发经验。先后就职于阿里云,蚂蚁集团,并担任蚂蚁容器团队负责人。他在本次会议的详细演讲内容如下:


演讲提纲

1. 引言

2. 万卡大模型训练的痛点和挑战

  • 业界 SOTA

  • 基础设施的交付和运维挑战

  • 任务快速容错挑战

3. 核心技术介绍与实践:DLRover、XPUTimer

4. 典型案例分析

  • 任务 hang 解决方案

  • 慢节点探测与定位

  • 国产卡场景

5. 总结展望


您认为,这样的技术在实践过程中有哪些痛点?

  • 国产卡异构性较强,我们只是介绍了昇腾的产品,其他诸如寒武纪等其他国产卡并未有涉及。


您的演讲有哪些前沿亮点?

  • 万卡规模训练如何高效容错,探测性能瓶颈,以及常见疑难问题的解决方案

  • 国产卡场景下如何提升训练稳定性

  • 如何使用先进的性能分析工具 xputimer


听众收益

  • 了解到大规模训练场景下的关键挑战与解决方案

  • 了解到蚂蚁集团在这方面的开源贡献,并应用到自己的生产环境实践中


除此之外,本次大会还策划了AI Agent 构建与多场景实践多模态实践与应用大模型助力研发的实战经验AI 在业务运营中的深度落地大模型时代的数据处理与分析AI 变革下的工程师等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。


目前,所有大会演讲嘉宾已结集完毕,了解更多报名和详情可扫码或联系票务经理 13269078023 咨询。



2025-06-16 17:001

评论

发布
暂无评论

Node.js学习 —— 简介

空城机

JavaScript 大前端 Node 5月日更

Hibernate的get和load区别学习笔记

风翱

hibernate 5月日更

低代码“骗局”

ES_her0

5月日更

Flutter开发:Warning:CocoaPods minimum required version 1.6.0 or greater not installed…的解决方法

三掌柜

5月日更

一文掌握 Java8 的 Optional 的 6 种操作

看山

Java

有了这三个神器工具集,应用开发想怎么玩就怎么玩

华为云开发者联盟

开发者 华为云 应用开发 工具集 APIExplorer

Nginx高并发调优中常被忽略的参数

运维研习社

nginx 运维 并发 性能调优 5月日更

华云大咖说 | 华云超融合在论文期刊行业的应用实践

华云数据

学习笔记之:知识地图

Nydia

学习

520特辑丨码神VS爱神:盘点程序员的四大男友力,你偏爱哪一种?

华为云开发者联盟

程序员 代码 520 男朋友 男友力

Python 多线程 VS 多进程(二)

若尘

多线程 多进程 Python编程 5月日更

《Spring 手撸专栏》第 2 章:小试牛刀(让新手能懂),实现一个简单的Bean容器

小傅哥

Java spring 容器 小傅哥 hashmap

MemVerge认为PB级内存池将随CXL而来

Steven Xu

内存 存储 高性能服务器

iPhone如何拍摄惊人的照片

懒得勤快

商业落地页端到端性能优化实践

百度Geek说

大前端

Rust从0到1-错误处理-Result

rust Error 可恢复错误 result

网易云课堂 Service Worker 运用与实践

有道技术团队

Service Worker

北京市级预付费资金监管平台正式上线试运行 内嵌区块链存证技术

CECBC

TOB产品需求调研

lenka

5月日更

写给丫头

小天同学

情人节 5月日更 520单身福利 情书 告白

网络攻防学习笔记 Day20

穿过生命散发芬芳

5月日更 网络攻防

初探图像二值化

CagyJ

算法 CV OpenCV 图像处理

350道Android面试真题分享,大厂直通车!

欢喜学安卓

android 程序员 面试 移动开发

【LeetCode】前K个高频单词Java题解

Albert

算法 LeetCode 5月日更

区块链与资产数字化

CECBC

网络攻防学习笔记 Day19

穿过生命散发芬芳

5月日更 网络攻防

Dubbo 并发控制

青年IT男

dubbo

211本硕如何通过字节跳动、百度、美团Android面试?复习指南

欢喜学安卓

android 程序员 面试 移动开发

Go sync.Pool 浅析

HHFCodeRv

Go 语言

CEO观点 | 核心开放:企业拥抱开源的成功之道

极狐GitLab

开源 DevOps 安全 高效 协同办公

面向服务体系结构的领域驱动设计

码语者

DDD

蚂蚁集团高级专家马介悦将在AICon北京分享DLRover在万卡规模大模型训练中的稳定性实践_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章