10 月 23 - 25 日,QCon 上海站即将召开,9折优惠最后2天 了解详情
写点什么

创始人梁文锋亲创!DeepSeek 开源第四弹:全面公开优化并行策略

  • 2025-02-27
    北京
  • 本文字数:1013 字

    阅读完需:约 3 分钟

大小:496.38K时长:02:49
创始人梁文锋亲创!DeepSeek 开源第四弹:全面公开优化并行策略

刚刚,DeepSeek 带来了开源周的第四弹。这次,他们一口气发布了三种在 V3/R1 模型训练中使用的优化并行策略。


 

首先是在 DeepSeek-V3 技术报告中介绍过的一种创新的双向管道并行算法 DualPipe ,用于 V3/R1 训练中的计算通信重叠,要求是 PyTorch 2.0 及更高版本。它实现了前向和后向计算通信阶段的完全重叠,也减少了管道气泡。据介绍,DualPipe 由包括 DeepSeek 创始人梁文锋在内的三位工程师创建和开发。

 


项目地址:https://github.com/deepseek-ai/DualPipe


接着是 EPLB,一种适用于 V3/R1 的专家并行负载均衡器。正如 DeepSeek-V3 论文中所描述的,其在使用专家并行(EP)时采用冗余专家策略,将重载专家重复分配,然后启发式地将重复的专家打包到 GPU 上,以确保不同 GPU 之间的负载平衡。此外,得益于 V3 中使用的组限制专家路由,他们还尝试将同组的专家放置到同一节点,以尽可能减少节点间的数据流量。为便于复制和部署,他们在.NET 平台上开源了已部署的 EP 负载均衡算法。


项目地址:https://github.com/deepseek-ai/eplb


最后,其公开分享了来自训练和推理框架的分析数据,以帮助社区更好地了解通信计算重叠策略和底层实现细节。分析数据是使用 PyTorch Profiler 捕获的,下载后可以通过导航到 Chrome 浏览器中的 chrome://tracing(或 Edge 浏览器中的 edge://tracing)来直接可视化它。在训练配置文件数据中,他们演示了在 DualPipe 中对一对单独的前向和后向块的重叠策略。每个块包含 4 个 MoE (Mix of Experts) 层。并行配置与 V3 预训练设置一致:EP64、TP1 具有 4K 序列长度。

 

推理方面,对于预填充,配置文件采用了 EP32 和 TP1(与 V3/R1 的实际在线部署一致)。在预填充阶段,他们利用两个微批次来重叠计算和多对多通信,同时确保注意力计算负载在两个微批次之间平衡——这意味着相同的提示可以在它们之间分配。

 

解码上,该配置文件采用了 EP128、TP1 。与预填充类似,解码也利用两个微批处理进行重叠计算和多对通信。但是,与预填充不同的是,解码过程中的 all-to-all 通信不会占用 GPU SM:RDMA 消息发出后,所有 GPU SM 都会被释放,系统在计算完成后等待 all-to-all 通信完成。

 

项目地址:https://github.com/deepseek-ai/profile-data

 

有外国网友不禁感叹,“DeepSeek 是彻底地开源吗?”“感谢你们在实现我们自己的理想方面比我们做得更好。”“DeepSeek 的策略‘交响乐’可以重新定义我们构建人工智能的方式,证明不需要最大的乐队也能演奏出最好的曲子。”





2025-02-27 12:078934

评论

发布
暂无评论

week-10-part1微服务调用的时序图

陈龙

架构师训练营第二期 Week 12 总结

bigxiang

架构师训练营第2期

架构师第 7 课作业及学习总结

小诗

「架构师训练营第 1 期」

大数据计算引擎Spark

积极&丧

week-10-part2 学习总结

陈龙

第七周 性能优化(一) 作业 「架构师训练营 3 期」

胡云飞

前端也要懂机器学习(上)

执鸢者

机器学习 大前端 特征选择

架构师训练营第二期 Week 12 作业

bigxiang

架构师训练营第2期

第二周作业

Geek_mewu4t

人人都在谈的数字化转型,区块链技术能扮演何种角色?

CECBC

区块链

week-11-part2 学习总结

陈龙

第七周命题作业

cc

架构作业一

薛凯

数据应用总结(一)

Mars

福田区实现数字人民币六个100%,农行推出ATM机存取现功能

CECBC

数字红包

第六周 技术选型(二) 作业 「架构师训练营 3 期」

胡云飞

产品与服务

JiangX

创业 产品 投资 服务 28天写作

架构作业(二)

薛凯

大作业:知识点图谱

paul

week-11-part1分析系统不可用的原因

陈龙

构师训练营 - 第十二周学习总结

joshuamai

电动车基本知识(28天写作 Day3/28)

mtfelix

自动驾驶 28天写作 电动汽车

【HTML】全局属性:accesskey

德育处主任

html html5 大前端 快捷键 28天写作

Windows安装Mysql

千泷

第七周学习心得

cc

MapReduce函数分析

Mars

数字人民币为何频频入榜金融机构“工作单”

CECBC

数字人民币

架构师训练营一期大作业一

陈龙

构师训练营 - 第十二周课后练习

joshuamai

生命唯愿,爱与自由

废材姑娘

个人感悟

依赖倒置与接口隔离原则

玄月

创始人梁文锋亲创!DeepSeek 开源第四弹:全面公开优化并行策略_AI&大模型_华卫_InfoQ精选文章