写点什么

创始人梁文锋亲创!DeepSeek 开源第四弹:全面公开优化并行策略

  • 2025-02-27
    北京
  • 本文字数:1013 字

    阅读完需:约 3 分钟

大小:496.38K时长:02:49
创始人梁文锋亲创!DeepSeek 开源第四弹:全面公开优化并行策略

刚刚,DeepSeek 带来了开源周的第四弹。这次,他们一口气发布了三种在 V3/R1 模型训练中使用的优化并行策略。


 

首先是在 DeepSeek-V3 技术报告中介绍过的一种创新的双向管道并行算法 DualPipe ,用于 V3/R1 训练中的计算通信重叠,要求是 PyTorch 2.0 及更高版本。它实现了前向和后向计算通信阶段的完全重叠,也减少了管道气泡。据介绍,DualPipe 由包括 DeepSeek 创始人梁文锋在内的三位工程师创建和开发。

 


项目地址:https://github.com/deepseek-ai/DualPipe


接着是 EPLB,一种适用于 V3/R1 的专家并行负载均衡器。正如 DeepSeek-V3 论文中所描述的,其在使用专家并行(EP)时采用冗余专家策略,将重载专家重复分配,然后启发式地将重复的专家打包到 GPU 上,以确保不同 GPU 之间的负载平衡。此外,得益于 V3 中使用的组限制专家路由,他们还尝试将同组的专家放置到同一节点,以尽可能减少节点间的数据流量。为便于复制和部署,他们在.NET 平台上开源了已部署的 EP 负载均衡算法。


项目地址:https://github.com/deepseek-ai/eplb


最后,其公开分享了来自训练和推理框架的分析数据,以帮助社区更好地了解通信计算重叠策略和底层实现细节。分析数据是使用 PyTorch Profiler 捕获的,下载后可以通过导航到 Chrome 浏览器中的 chrome://tracing(或 Edge 浏览器中的 edge://tracing)来直接可视化它。在训练配置文件数据中,他们演示了在 DualPipe 中对一对单独的前向和后向块的重叠策略。每个块包含 4 个 MoE (Mix of Experts) 层。并行配置与 V3 预训练设置一致:EP64、TP1 具有 4K 序列长度。

 

推理方面,对于预填充,配置文件采用了 EP32 和 TP1(与 V3/R1 的实际在线部署一致)。在预填充阶段,他们利用两个微批次来重叠计算和多对多通信,同时确保注意力计算负载在两个微批次之间平衡——这意味着相同的提示可以在它们之间分配。

 

解码上,该配置文件采用了 EP128、TP1 。与预填充类似,解码也利用两个微批处理进行重叠计算和多对通信。但是,与预填充不同的是,解码过程中的 all-to-all 通信不会占用 GPU SM:RDMA 消息发出后,所有 GPU SM 都会被释放,系统在计算完成后等待 all-to-all 通信完成。

 

项目地址:https://github.com/deepseek-ai/profile-data

 

有外国网友不禁感叹,“DeepSeek 是彻底地开源吗?”“感谢你们在实现我们自己的理想方面比我们做得更好。”“DeepSeek 的策略‘交响乐’可以重新定义我们构建人工智能的方式,证明不需要最大的乐队也能演奏出最好的曲子。”





2025-02-27 12:078849

评论

发布
暂无评论

【YashanDB知识库】YFS_修改AU_SIZE参数

YashanDB

数据库 yashandb

【YashanDB知识库】YashanDB获取统计信息

YashanDB

数据库 yashandb

项目管理工具推荐:8款替代Trello的热门选项

易成研发中心

项目管理 项目管理工具

京东店铺所有商品接口系列(京东API)

tbapi

京东API接口 京东店铺所有商品接口

AI技术在语法讲解APP开发中的应用

北京木奇移动技术有限公司

软件外包公司 AI英语学习 AI语法练习

2025-01-18:施咒的最大总伤害。用go语言,一个魔法师掌握了多种不同的咒语,每个咒语对应一个伤害值,这些伤害值存储在数组 power 中,其中可能会有多个咒语具有相同的伤害值。 使用某个特定伤

福大大架构师每日一题

福大大架构师每日一题

人形机器人的 ChatGPT 时刻即将到来,如何转入?

机器人头条

大模型 人形机器人 具身智能

深入解析 Spring AI 系列:分析 Spring AI 可观测性

不在线第一只蜗牛

Java spring

【YashanDB知识库】YashanDB备份恢复的两种渠道

YashanDB

数据库 yashandb

AI智能口语练习APP的开发

北京木奇移动技术有限公司

软件外包公司 AI口语练习 AI英语学习

拥抱创新科技,探寻体育变革之路—— 第二届LALIGA EXTRATIME体育行业论坛在京成功举办

新消费日报

【连载 12】线程安全的集合类

FunTester

用友畅捷通在Flink上构建实时数仓、挑战与最佳实践

Apache Flink

大数据 flink 实时计算 实时处理

3D打印市场爆火,纵维立方新品S1C一分钟售罄

新消费日报

HarmonyOS Next 端云一体化(3)

万少

HarmonyOS NEXT 端云一体

Univer go 无需搭建环境,一键部署私有化的表格系统

梦数技术团队

Python JavaScript 数据库 AI spreadsheet

阿里云通义实验室自然语言处理方向负责人黄非:通义灵码2.0,迈入 Agentic AI

阿里巴巴云原生

阿里云 云原生

阿里云通义实验室自然语言处理方向负责人黄非:通义灵码2.0,迈入 Agentic AI

阿里云云效

阿里云 云原生

项目变更的范围包括哪些方面

易成研发中心

项目管理 项目管理工具 项目变更

《CPython Internals》阅读笔记:p221-p231

codists

行业分享|AI+仿真,重塑前端设计研发价值(一)

Altair RapidMiner

机器学习 AI 智能制造 仿真设计

AI口语纠正的技术框架

北京木奇移动技术有限公司

软件外包公司 AI口语练习 AI口语纠正

ROS2与OpenAI Gym集成指南:从安装到自定义环境与强化学习训练

芯动大师

强化学习

创始人梁文锋亲创!DeepSeek 开源第四弹:全面公开优化并行策略_AI&大模型_华卫_InfoQ精选文章