写点什么

创始人梁文锋亲创!DeepSeek 开源第四弹:全面公开优化并行策略

  • 2025-02-27
    北京
  • 本文字数:1013 字

    阅读完需:约 3 分钟

大小:496.38K时长:02:49
创始人梁文锋亲创!DeepSeek 开源第四弹:全面公开优化并行策略

刚刚,DeepSeek 带来了开源周的第四弹。这次,他们一口气发布了三种在 V3/R1 模型训练中使用的优化并行策略。


 

首先是在 DeepSeek-V3 技术报告中介绍过的一种创新的双向管道并行算法 DualPipe ,用于 V3/R1 训练中的计算通信重叠,要求是 PyTorch 2.0 及更高版本。它实现了前向和后向计算通信阶段的完全重叠,也减少了管道气泡。据介绍,DualPipe 由包括 DeepSeek 创始人梁文锋在内的三位工程师创建和开发。

 


项目地址:https://github.com/deepseek-ai/DualPipe


接着是 EPLB,一种适用于 V3/R1 的专家并行负载均衡器。正如 DeepSeek-V3 论文中所描述的,其在使用专家并行(EP)时采用冗余专家策略,将重载专家重复分配,然后启发式地将重复的专家打包到 GPU 上,以确保不同 GPU 之间的负载平衡。此外,得益于 V3 中使用的组限制专家路由,他们还尝试将同组的专家放置到同一节点,以尽可能减少节点间的数据流量。为便于复制和部署,他们在.NET 平台上开源了已部署的 EP 负载均衡算法。


项目地址:https://github.com/deepseek-ai/eplb


最后,其公开分享了来自训练和推理框架的分析数据,以帮助社区更好地了解通信计算重叠策略和底层实现细节。分析数据是使用 PyTorch Profiler 捕获的,下载后可以通过导航到 Chrome 浏览器中的 chrome://tracing(或 Edge 浏览器中的 edge://tracing)来直接可视化它。在训练配置文件数据中,他们演示了在 DualPipe 中对一对单独的前向和后向块的重叠策略。每个块包含 4 个 MoE (Mix of Experts) 层。并行配置与 V3 预训练设置一致:EP64、TP1 具有 4K 序列长度。

 

推理方面,对于预填充,配置文件采用了 EP32 和 TP1(与 V3/R1 的实际在线部署一致)。在预填充阶段,他们利用两个微批次来重叠计算和多对多通信,同时确保注意力计算负载在两个微批次之间平衡——这意味着相同的提示可以在它们之间分配。

 

解码上,该配置文件采用了 EP128、TP1 。与预填充类似,解码也利用两个微批处理进行重叠计算和多对通信。但是,与预填充不同的是,解码过程中的 all-to-all 通信不会占用 GPU SM:RDMA 消息发出后,所有 GPU SM 都会被释放,系统在计算完成后等待 all-to-all 通信完成。

 

项目地址:https://github.com/deepseek-ai/profile-data

 

有外国网友不禁感叹,“DeepSeek 是彻底地开源吗?”“感谢你们在实现我们自己的理想方面比我们做得更好。”“DeepSeek 的策略‘交响乐’可以重新定义我们构建人工智能的方式,证明不需要最大的乐队也能演奏出最好的曲子。”





2025-02-27 12:079026

评论

发布
暂无评论

陈世佳酿贾斯特里尼&布鲁克斯,优质葡萄酒连储藏都有秘诀

联营汇聚

React Streaming SSR 原理解析

字节跳动终端技术

React

react源码中的fiber架构

flyzz177

React

React源码解读之更新的创建

flyzz177

前端工程师leetcode算法面试必备-二分搜索算法(上)

js2030code

JavaScript LeetCode

前端关于面试你可能需要收集的面试题

loveX001

JavaScript

React源码分析6-hooks源码

flyzz177

React

vivo 推荐业务 x DeepRec:全链路优化实践

阿里云大数据AI技术

人工智能 gpu 推荐引擎 12 月 PK 榜

前端必会面试题总结

loveX001

JavaScript

新项目为什么决定用 JDK 17了

古时的风筝

Java JVM jdk17

React源码分析7-state计算流程和优先级

flyzz177

React

用javascript分类刷leetcode3.动态规划(图文视频讲解)

js2030code

JavaScript LeetCode

分支路径图调度框架在 vivo 效果广告业务的落地实践

vivo互联网技术

图调度 效果广告 分支路径

如何实现移除控件?

Towify

编辑器 无代码 无代码微信小程序

好酒要有好工艺,贾斯特里尼&布鲁克斯,用心酿造每一滴酒

联营汇聚

React源码分析5-commit

flyzz177

React

「Go框架」路由:web框架中是如何根据url地址找到对应的处理逻辑的?

Go学堂

golang 个人成长 程序员‘ 12月月更

从URL输入到页面展现到底发生什么?

loveX001

JavaScript

如何使用Towify在微信小程序中配置输入必填报错?

Towify

小程序 微信小程序 无代码 无代码微信小程序

react hook 源码完全解读

flyzz177

React

SPL 和 SQL 能不能融合在一起?

jiangxl

信用卡应用评测系列——阳光惠生活APP7.0打造“世界波”专区

易观分析

金融 银行 信用卡

低碳机关先行,昆明引领分布式光伏新变革

极客天地

贾斯特里尼&布鲁克斯,葡萄酒中的天花板

联营汇聚

先到先学!阿里新产Spring全家桶核心笔记,底层源码+应用全覆盖

程序员小毕

spring 源码 后端 架构师 java面试

前端刷完这12道滑动窗口,就可以出山面试了

js2030code

JavaScript LeetCode

从输入URL到渲染的完整过程

loveX001

JavaScript

实用指南:手把手搭建坚若磐石的DevSecOps框架

SEAL安全

DevSecOps 12 月 PK 榜 DevSecOps框架 实用指南

软件测试 | 测试开发 | 一文搞定 Postman 接口自动化测试

测吧(北京)科技有限公司

【观看直播有礼】第三届云原生实战峰会正式官宣启动

阿里巴巴云原生

阿里云 云原生 实战峰会

创始人梁文锋亲创!DeepSeek 开源第四弹:全面公开优化并行策略_AI&大模型_华卫_InfoQ精选文章