写点什么

昇腾 MindSpeed:分布式训练加速库的创新实践|QCon 北京

  • 2025-03-19
    北京
  • 本文字数:1227 字

    阅读完需:约 4 分钟

昇腾 MindSpeed:分布式训练加速库的创新实践|QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京盛大召开。此次大会以 “智能融合,引领未来” 为主题,汇聚各领域技术先锋与创新者,共同探讨行业发展新趋势。


华为高级工程师郑加利已确认出席,并发表题为《昇腾 MindSpeed:分布式训练加速库的创新实践与突破》的主题分享。大模型训练过程复杂,面临着模型参数量和计算量剧增、单卡计算能力不足、大规模集群计算复杂性增加等诸多挑战。在这样的背景下,昇腾 MindSpeed 分布式训练加速库通过多维度优化,有效提升了大模型训练效率。本次演讲中,郑加利将详细介绍其创新实践与突破。


郑加利主导了 MindSpeed 框架基础架构设计构建,推动大模型训练效率显著提升,还主导微软大模型训练框架 DeepSpeed 原生支持华为昇腾软件栈,拓展了昇腾生态兼容性。此外,他深度参与华为昇腾重点模型开发和客户项目攻关,多次荣获昇腾领域总裁嘉奖令。本次会议中,他的详细演讲内容如下:


演讲大纲:

大模型训练的趋势与挑战

  • 模型规模与计算需求:大模型参数量与计算量呈指数级增长。

  • 分布式训练的复杂性:大规模集群计算带来诸多挑战。

  • 效率瓶颈:现有解决方案存在局限性。

业界加速套件

  • 主流加速库的特点与不足:分析主流加速库的优势与短板。

  • 昇腾 MindSpeed 的差异化优势:阐述昇腾 MindSpeed 相比其他加速库的独特优势。

MindSpeed 架构设计

  • 整体架构概览:介绍 MindSpeed 的整体架构。

  • 核心模块与功能:讲解 MindSpeed 的核心模块及其功能。

MindSpeed 优化策略

  • 通信优化:采用高效通信协议与算法;分享通信性能提升案例。

  • 内存优化:运用显存管理与优化技术;展示内存优化的实际效果。

  • 计算优化:进行算法加速与硬件适配;点明计算效率提升的关键点。

  • 并行优化:灵活组合并行策略并实践。

MindSpeed 的实战效果

  • 性能提升案例:展示具体模型训练的加速效果。

  • 效率提升:体现训练时间缩短与资源利用率提升。

  • 行业应用:介绍 MindSpeed 在不同场景中的落地实践。

未来展望

  • 昇腾 MindSpeed 的发展方向:展望 MindSpeed 未来的发展路径。

  • 对大模型训练的持续支持与创新:阐述对大模型训练持续创新和支持的计划。


您认为,这样的技术在实践过程中有哪些痛点?

在此次演讲中提到的大部分技术点都属于使用场景广泛,成本较小。并行优化中会有一些优化点开发工作量相对较多。


演讲亮点:

显存优化中通过 BF16 与 FP32 数据格式同指数位的特点,共享显存地址,以节省显存开销,当前业界无此方案。


听众收益:

  1. 了解昇腾分布式训练加速库的一些前沿的技术和成果。

  2. 开拓一些新思路,用新想法解决大模型中的显存和通信耗时问题。


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。



2025-03-19 23:373703

评论

发布
暂无评论
发现更多内容

程序员/码农35岁都面临转行或失业?

伤感汤姆布利柏

区块链技术在供应链管理中的应用与挑战

web3区块链创业团队DappNetWork

智能单款计划助力品牌利润增长

第七在线

心大陆AI大模型再加速,获批国内首个「人工智能心理算法」国家备案!

心大陆多智能体

掌握Postman,开启API测试新纪元!

测试人

软件测试 Postman API

研发提效:想快速定制一个OLAP应用?你可以这么做

京东科技开发者

从0到1:广告营销多智能体架构落地全攻略

百度Geek说

生成式AI 企业号 5 月 PK 榜 企业号2024年5月PK榜 多智能体架构

深度合作!博睿数据联合中国信通院开展公网服务质量评估工作!

博睿数据

Apifox 更新|编排模式、Markdown 编辑器升级、自动申请 SSL 证书、用户反馈问题优化

Apifox

前端 后端 Apifox API 后端程序员

网络安全行为可控定义以及表现内容简述

行云管家

网络安全 堡垒机 行为可控

大型前端应用如何做系统融合?

京东零售技术

JavaScript 前端 企业号 5 月 PK 榜

万界星空科技电线电缆行业MES解决方案

万界星空科技

mes 万界星空科技mes 电线电缆行业 电线电缆mes

中国程序员和外国程序员到底哪里不一样?

伤感汤姆布利柏

天津企业采购云管平台需要考虑哪些?选择哪家好?

行云管家

云计算 云管平台 天津

LLM 大模型学习必知必会系列(六):量化技术解析、QLoRA技术、量化库介绍使用(AutoGPTQ、AutoAWQ)

汀丶人工智能

AutoAWQ AutoGPTQ 大模型量化技术

LLM 大模型学习必知必会系列(七):掌握分布式训练与LoRA/LISA微调:打造高性能大模型的秘诀进阶实战指南

汀丶人工智能

大模型微调 LORA微调 LISA微调

NineData架构师周金义:ClickHouse 数据管理与同步的关键技术

NineData

最佳实践 Clickhouse 数据管理 NineData 迁移同步

K8s 小白入门|从电影配乐谈起,聊聊容器编排和 K8s

小猿姐

Kubernetes 云原生 容器化

国产数据库替代加速 助力数字中国建设

科技热闻

关于Vearch在大模型中使用的一些实践

京东科技开发者

手把手教你基于华为云,实现MindSpore模型训练

华为云开发者联盟

人工智能 深度学习 华为云 华为云开发者联盟 企业号2024年5月PK榜

鸿蒙开发从开源进入到闭源(Harmony OS)开发主流

FinFish

HarmonyOS 鸿蒙开发 鸿蒙OS 小程序容器 混合开发

“有温度”的心理健康AI专业咨询师,陪伴你一路成长!

心大陆多智能体

低代码与人工智能:革新智能客服系统的高效之道

天津汇柏科技有限公司

低代码 智能客服 #人工智能

昇腾 MindSpeed:分布式训练加速库的创新实践|QCon北京_华为_QCon全球软件开发大会_InfoQ精选文章