写点什么

创始人梁文锋亲创!DeepSeek 开源第四弹:全面公开优化并行策略

  • 2025-02-27
    北京
  • 本文字数:1013 字

    阅读完需:约 3 分钟

大小:496.38K时长:02:49
创始人梁文锋亲创!DeepSeek 开源第四弹:全面公开优化并行策略

刚刚,DeepSeek 带来了开源周的第四弹。这次,他们一口气发布了三种在 V3/R1 模型训练中使用的优化并行策略。


 

首先是在 DeepSeek-V3 技术报告中介绍过的一种创新的双向管道并行算法 DualPipe ,用于 V3/R1 训练中的计算通信重叠,要求是 PyTorch 2.0 及更高版本。它实现了前向和后向计算通信阶段的完全重叠,也减少了管道气泡。据介绍,DualPipe 由包括 DeepSeek 创始人梁文锋在内的三位工程师创建和开发。

 


项目地址:https://github.com/deepseek-ai/DualPipe


接着是 EPLB,一种适用于 V3/R1 的专家并行负载均衡器。正如 DeepSeek-V3 论文中所描述的,其在使用专家并行(EP)时采用冗余专家策略,将重载专家重复分配,然后启发式地将重复的专家打包到 GPU 上,以确保不同 GPU 之间的负载平衡。此外,得益于 V3 中使用的组限制专家路由,他们还尝试将同组的专家放置到同一节点,以尽可能减少节点间的数据流量。为便于复制和部署,他们在.NET 平台上开源了已部署的 EP 负载均衡算法。


项目地址:https://github.com/deepseek-ai/eplb


最后,其公开分享了来自训练和推理框架的分析数据,以帮助社区更好地了解通信计算重叠策略和底层实现细节。分析数据是使用 PyTorch Profiler 捕获的,下载后可以通过导航到 Chrome 浏览器中的 chrome://tracing(或 Edge 浏览器中的 edge://tracing)来直接可视化它。在训练配置文件数据中,他们演示了在 DualPipe 中对一对单独的前向和后向块的重叠策略。每个块包含 4 个 MoE (Mix of Experts) 层。并行配置与 V3 预训练设置一致:EP64、TP1 具有 4K 序列长度。

 

推理方面,对于预填充,配置文件采用了 EP32 和 TP1(与 V3/R1 的实际在线部署一致)。在预填充阶段,他们利用两个微批次来重叠计算和多对多通信,同时确保注意力计算负载在两个微批次之间平衡——这意味着相同的提示可以在它们之间分配。

 

解码上,该配置文件采用了 EP128、TP1 。与预填充类似,解码也利用两个微批处理进行重叠计算和多对通信。但是,与预填充不同的是,解码过程中的 all-to-all 通信不会占用 GPU SM:RDMA 消息发出后,所有 GPU SM 都会被释放,系统在计算完成后等待 all-to-all 通信完成。

 

项目地址:https://github.com/deepseek-ai/profile-data

 

有外国网友不禁感叹,“DeepSeek 是彻底地开源吗?”“感谢你们在实现我们自己的理想方面比我们做得更好。”“DeepSeek 的策略‘交响乐’可以重新定义我们构建人工智能的方式,证明不需要最大的乐队也能演奏出最好的曲子。”





2025-02-27 12:078988

评论

发布
暂无评论

重塑数据活力 | 焱融科技与DaoCloud 道客完成云原生兼容性认证

焱融科技

#云原生 #高性能 #分布式文件存储 #文件存储 #分布式存储

一文带你了解EPM系统的发展史

智达方通

EPM 业财融合 智达方通 企业绩效管理 海波龙

MySQL 8.0中InnoDB buffer pool size进度更透明

GreatSQL

MySQL InnoDB greatsql社区

【Python实战】Python采集图片数据

BROKEN

三周年连更

自动化测试 | 如何在API开发中践行“设计优先”方法?SwaggerHub助您一臂之力

龙智—DevSecOps解决方案

API SmartBear

涨薪60%,从小厂逆袭,坐上美团技术专家(面经+心得)

程序知音

Java 后端 java面试 java架构 Java进阶

使用篇丨链路追踪(Tracing)很简单:链路拓扑

阿里巴巴云原生

阿里云 云原生 链路追踪 Tracing

标签系列:标签的价值、生产与评价

小鲸数据

标签 CDP 用户画像 标签体系 精准营销

从入门到放弃再到成功—我的 Jira 插件探索之路

跟YY哥学Jira

Scrum cli Jira插件 Forge 团队速度

膜拜,国内算法大佬亲撰:数据结构与算法全解笔记

程序知音

Java 算法 数据结构与算法 后端技术

AIGC产业研究报告 2023——图像生成篇

易观分析

产业 智能

论存储在智算与超算平台建设中的重要性

焱融科技

#分布式文件存储 #全闪存储 #高性能存储

五月到了,再来看看ChatGPT给我们带来了什么吧!

加入高科技仿生人

AI AIGC ChatGPT

华秋干货铺 | PCB板为什么要做树脂塞孔?

华秋电子

AIGC遇上低代码的碰撞与融合

力软低代码开发平台

巴别时代基于 Apache Paimon 的 Streaming Lakehouse 的探索与实践

Apache Flink

大数据 flink 实时计算

如何参与Cetus和Oi! Network联合ISO认购和空投奖励?

股市老人

MES系统中的BOM为何如此重要?先进的BOM体系怎么建立?

优秀

MES系统 BOM

版本控制 | 如何使用虚幻引擎的多用户编辑(MUE)功能

龙智—DevSecOps解决方案

版本控制 虚幻引擎 虚拟制作 虚幻多用户编辑

Python函数基础回顾

timerring

Python

Python文件和操作系统基础

timerring

Python

八股MQ003——聊聊Consumer

Codyida

后端

中国信通院召开政企信息技术应用创新(信创)促进中心启动会

信通院IOMM数字化转型团队

信创 信创产业 信创生态

得物直播低延迟探索 | 得物技术

得物技术

直播技术 直播推流 直播优化

选择无服务器:Babbel 的迁移故事

亚马逊云科技 (Amazon Web Services)

推动变革,打造全新的全面预算管理解决方案

智达方通

智能多维数据库 多维数据库 业财融合 全面预算管理

iOS MachineLearning 系列(10)—— 自然语言分析之文本拆解

珲少

大咖观点| AIGC与因果推断的双向赋能

九章云极DataCanvas

我的职业规划 |社区征文

来碗老郭

三周年征文

文心一言 VS chatgpt (14)-- 算法导论3.2 2~3题

福大大架构师每日一题

ChatGPT 文心一言 福大大架构师每日一题

演讲回顾 | 释放Atlassian工具的力量

龙智—DevSecOps解决方案

Atlassian Jira Atlassian 云版

创始人梁文锋亲创!DeepSeek 开源第四弹:全面公开优化并行策略_AI&大模型_华卫_InfoQ精选文章