写点什么

昇腾 MindSpeed:分布式训练加速库的创新实践|QCon 北京

  • 2025-03-19
    北京
  • 本文字数:1227 字

    阅读完需:约 4 分钟

昇腾 MindSpeed:分布式训练加速库的创新实践|QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京盛大召开。此次大会以 “智能融合,引领未来” 为主题,汇聚各领域技术先锋与创新者,共同探讨行业发展新趋势。


华为高级工程师郑加利已确认出席,并发表题为《昇腾 MindSpeed:分布式训练加速库的创新实践与突破》的主题分享。大模型训练过程复杂,面临着模型参数量和计算量剧增、单卡计算能力不足、大规模集群计算复杂性增加等诸多挑战。在这样的背景下,昇腾 MindSpeed 分布式训练加速库通过多维度优化,有效提升了大模型训练效率。本次演讲中,郑加利将详细介绍其创新实践与突破。


郑加利主导了 MindSpeed 框架基础架构设计构建,推动大模型训练效率显著提升,还主导微软大模型训练框架 DeepSpeed 原生支持华为昇腾软件栈,拓展了昇腾生态兼容性。此外,他深度参与华为昇腾重点模型开发和客户项目攻关,多次荣获昇腾领域总裁嘉奖令。本次会议中,他的详细演讲内容如下:


演讲大纲:

大模型训练的趋势与挑战

  • 模型规模与计算需求:大模型参数量与计算量呈指数级增长。

  • 分布式训练的复杂性:大规模集群计算带来诸多挑战。

  • 效率瓶颈:现有解决方案存在局限性。

业界加速套件

  • 主流加速库的特点与不足:分析主流加速库的优势与短板。

  • 昇腾 MindSpeed 的差异化优势:阐述昇腾 MindSpeed 相比其他加速库的独特优势。

MindSpeed 架构设计

  • 整体架构概览:介绍 MindSpeed 的整体架构。

  • 核心模块与功能:讲解 MindSpeed 的核心模块及其功能。

MindSpeed 优化策略

  • 通信优化:采用高效通信协议与算法;分享通信性能提升案例。

  • 内存优化:运用显存管理与优化技术;展示内存优化的实际效果。

  • 计算优化:进行算法加速与硬件适配;点明计算效率提升的关键点。

  • 并行优化:灵活组合并行策略并实践。

MindSpeed 的实战效果

  • 性能提升案例:展示具体模型训练的加速效果。

  • 效率提升:体现训练时间缩短与资源利用率提升。

  • 行业应用:介绍 MindSpeed 在不同场景中的落地实践。

未来展望

  • 昇腾 MindSpeed 的发展方向:展望 MindSpeed 未来的发展路径。

  • 对大模型训练的持续支持与创新:阐述对大模型训练持续创新和支持的计划。


您认为,这样的技术在实践过程中有哪些痛点?

在此次演讲中提到的大部分技术点都属于使用场景广泛,成本较小。并行优化中会有一些优化点开发工作量相对较多。


演讲亮点:

显存优化中通过 BF16 与 FP32 数据格式同指数位的特点,共享显存地址,以节省显存开销,当前业界无此方案。


听众收益:

  1. 了解昇腾分布式训练加速库的一些前沿的技术和成果。

  2. 开拓一些新思路,用新想法解决大模型中的显存和通信耗时问题。


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。



2025-03-19 23:373849

评论

发布
暂无评论
发现更多内容

从焊接角度聊一聊,设计PCB的5个建议

华秋PCB

工具 PCB PCB设计 焊接

用Apipost进行Websocket调试教程

不想敲代码

微服务 websocket 接口调试

技术交错革新,移动开发平台机会和挑战并存

FinFish

移动开发 移动开发平台 移动应用开发

“堆外内存”这玩意是真不错,我要写进简历了。

why技术

Java 程序员 面试

DiffusionDet 用扩散模型解决目标检测

Zilliz

用javascript分类刷leetcode21.树(图文视频讲解)

js2030code

JavaScript LeetCode

架构作为6

梁山伯

助力芯片产业蓬勃发展,诚翔滤器推出光刻机过滤器

电子信息发烧客

堡垒机真的安全吗可靠吗?大家喜欢哪款?

行云管家

等保 堡垒机 等级保护 堡垒机品牌

落地DevOps的路线图

老张

DevOps 软件工程

前端leetcde算法面试套路之树

js2030code

JavaScript LeetCode

简单好上手!1分钟带你体验Apipost

叶小柒

drools规则动态化实践

京东科技开发者

Java 规则引擎 业务逻辑 企业号 2 月 PK 榜 drl

SAP的良好业绩,能否敲响国内厂商的警钟?

ToB行业头条

2023计算机领域顶会(A类)以及ACL 2023自然语言处理(NLP)研究子方向领域汇总

汀丶人工智能

人工智能 自然语言处理 2月日更 计算语言学协

用 AI 取代人工?或许 LLMs 可以给你答案

鼎道智联

#人工智能

KCL 与其他 Kubernetes 配置管理工具的异同 - Helm 篇 - Helm 篇 [一个自研编程语言能做什么?(系列 3)]

Peefy

Kubernetes DevOps 编程语言 #开源

共赴元宇宙新纪元,华为云VR开发应用大赛总决赛倒计时7天!

华为云开发者联盟

人工智能 华为云 VR开发应用 企业号 2 月 PK 榜 华为云开发者联盟

版本控制 | 如何利用虚幻引擎进行虚拟制作,为电影制作带来更多可能

龙智—DevSecOps解决方案

游戏引擎 虚幻引擎 虚幻引擎5 虚拟制作

JVM参数:带你认识-X和-XX参数

华为云开发者联盟

开发 华为云 企业号 2 月 PK 榜 华为云开发者联盟

对比开源丨Prometheus 服务多场景存储压测全解析

阿里巴巴中间件

阿里云 云原生 Prometheus

简单了解下linux与windows两者的区别-行云管家

行云管家

Linux

婚庆LED显示屏打造梦幻婚礼

Dylan

LED显示屏 led显示屏厂家 户内led显示屏

Dubbo 3 之 Triple 流控反压原理解析

阿里巴巴中间件

阿里云 微服务 云原生

一文详解TensorFlow模型迁移及模型训练实操步骤

华为云开发者联盟

人工智能 华为云 昇腾AI 企业号 2 月 PK 榜 华为云开发者联盟

前端leetcde算法面试套路之堆

js2030code

JavaScript LeetCode

工赋开发者社区 | 达摩院开源半监督学习框架Dash,刷新多项SOTA

工赋开发者社区

云原生微服务技术趋势解读

阿里巴巴中间件

阿里云 开源 微服务 云原生

ITSM | Atlassian被Gartner评为IT服务管理平台魔力象限的领导者

龙智—DevSecOps解决方案

Atlassian ITSM Gartner

开源工具系列3:Prowler

HummerCloud

云安全

昇腾 MindSpeed:分布式训练加速库的创新实践|QCon北京_华为_QCon全球软件开发大会_InfoQ精选文章