写点什么

昇腾 MindSpeed:分布式训练加速库的创新实践|QCon 北京

  • 2025-03-19
    北京
  • 本文字数:1227 字

    阅读完需:约 4 分钟

昇腾 MindSpeed:分布式训练加速库的创新实践|QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京盛大召开。此次大会以 “智能融合,引领未来” 为主题,汇聚各领域技术先锋与创新者,共同探讨行业发展新趋势。


华为高级工程师郑加利已确认出席,并发表题为《昇腾 MindSpeed:分布式训练加速库的创新实践与突破》的主题分享。大模型训练过程复杂,面临着模型参数量和计算量剧增、单卡计算能力不足、大规模集群计算复杂性增加等诸多挑战。在这样的背景下,昇腾 MindSpeed 分布式训练加速库通过多维度优化,有效提升了大模型训练效率。本次演讲中,郑加利将详细介绍其创新实践与突破。


郑加利主导了 MindSpeed 框架基础架构设计构建,推动大模型训练效率显著提升,还主导微软大模型训练框架 DeepSpeed 原生支持华为昇腾软件栈,拓展了昇腾生态兼容性。此外,他深度参与华为昇腾重点模型开发和客户项目攻关,多次荣获昇腾领域总裁嘉奖令。本次会议中,他的详细演讲内容如下:


演讲大纲:

大模型训练的趋势与挑战

  • 模型规模与计算需求:大模型参数量与计算量呈指数级增长。

  • 分布式训练的复杂性:大规模集群计算带来诸多挑战。

  • 效率瓶颈:现有解决方案存在局限性。

业界加速套件

  • 主流加速库的特点与不足:分析主流加速库的优势与短板。

  • 昇腾 MindSpeed 的差异化优势:阐述昇腾 MindSpeed 相比其他加速库的独特优势。

MindSpeed 架构设计

  • 整体架构概览:介绍 MindSpeed 的整体架构。

  • 核心模块与功能:讲解 MindSpeed 的核心模块及其功能。

MindSpeed 优化策略

  • 通信优化:采用高效通信协议与算法;分享通信性能提升案例。

  • 内存优化:运用显存管理与优化技术;展示内存优化的实际效果。

  • 计算优化:进行算法加速与硬件适配;点明计算效率提升的关键点。

  • 并行优化:灵活组合并行策略并实践。

MindSpeed 的实战效果

  • 性能提升案例:展示具体模型训练的加速效果。

  • 效率提升:体现训练时间缩短与资源利用率提升。

  • 行业应用:介绍 MindSpeed 在不同场景中的落地实践。

未来展望

  • 昇腾 MindSpeed 的发展方向:展望 MindSpeed 未来的发展路径。

  • 对大模型训练的持续支持与创新:阐述对大模型训练持续创新和支持的计划。


您认为,这样的技术在实践过程中有哪些痛点?

在此次演讲中提到的大部分技术点都属于使用场景广泛,成本较小。并行优化中会有一些优化点开发工作量相对较多。


演讲亮点:

显存优化中通过 BF16 与 FP32 数据格式同指数位的特点,共享显存地址,以节省显存开销,当前业界无此方案。


听众收益:

  1. 了解昇腾分布式训练加速库的一些前沿的技术和成果。

  2. 开拓一些新思路,用新想法解决大模型中的显存和通信耗时问题。


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。



2025-03-19 23:373440

评论

发布
暂无评论
发现更多内容

没有专业IT团队?灯塔低代码平台让中小企业自己当"开发者"

中烟创新

Spring Boot整合难点?AI一键生成全流程解决方案

飞算JavaAI开发助手

字节跳动开源 Godel-Rescheduler:适用于云原生系统的全局最优重调度框架

字节跳动开源

云原生 全局最优调度 多策略协同 高吞吐执行 生产级稳定性

Serverless MCP 运行时业界首发,函数计算让 AI 应用最后一公里提速

阿里巴巴云原生

阿里云 Serverless 云原生

利用代理 IP 突破反爬限制,实现跨境电商数据高效爬取

Yan-英杰

Python 爬虫 爬虫实战

与AI深度融合的Go开发框架sponge,解决使用cursor、trae等AI辅助编程工具开发项目时的部分痛点

vison

golang 代码生成 AI助手

哈尔滨等保:保护企业终端数据

黑龙江陆陆信息测评部

Apache Doris 2025 Roadmap:构建 GenAI 时代实时高效统一的数据底座

SelectDB

AI 数据湖 存算分离 实时分析 日志场景

从开发者视角解读 Google Cloud Next 25

声网

DeepSeek Function Calling调用实践

AI时代的一滴水

Python LLM模型 Function Calling DeepSeek v3

AI人像修饰的革命性工具Aperty for mac

Rose

sublime text 4如何汉化?sublime text 中文设置教程

Rose

CAD中的草图绘制功能

极客天地

Flutter 与 uni-app 的深度对比:鸿蒙开发的最佳选择竟是原生开发

坚果

鸿蒙 HarmonyOS

JVM 调优不再难:AI 工具自动生成内存优化方案

飞算JavaAI开发助手

如何高效使用 Text to SQL 提升数据分析效率?四个关键应用场景解析

镜舟科技

数据湖 数据分析 分析型数据库 StarRocks Text to SQL

KWDB 开源社区走进重庆大学

KaiwuDB

数据库 kwdb数据库 校园行

Premiere Pro 2025(PR2025)激活补丁及安装教程

Rose

高级数学及符号运算 Wolfram Mathematica for Mac 中文激活教程

Rose

Nacos-Controller 2.0:使用 Nacos 高效管理你的 K8s 配置

阿里巴巴云原生

阿里云 云原生 nacos

Claude 语音模式曝光:支持多音色和文件上传;谷歌发布和海豚对话的语音模型 DolphinGemma|日报

声网

阿里云 MSE Nacos 发布全新“安全防护”模块,简化安全配置,提升数据保护

阿里巴巴云原生

阿里云 云原生 nacos MSE

直播预告 | KWDB 数据库安装使用快速上手

KaiwuDB

数据库 直播

《Operating System Concepts》阅读笔记:p667-p699

codists

操作系统

【活动预告】4.19 相约上海,详解数据库与 AI 的理念融合

Apache IoTDB

Kube-Proxy 可观测性最佳实践

观测云

Kubernetes

功能齐全的Mac用户必备FTP客户端:ForkLift

Rose

数据库管理开发工具Navicat for MySQL汉化版

Rose

CAD如何利用两点间的中点解决镜像中心线问题

极客天地

无感改造,完美监控:Docker 多阶段构建 Go 应用无侵入观测

阿里巴巴云原生

golang 阿里云 云原生

macOS Big Sur 11(macOS11系统)v11.7.10正式版

Rose

昇腾 MindSpeed:分布式训练加速库的创新实践|QCon北京_华为_QCon全球软件开发大会_InfoQ精选文章