写点什么

DeepSeek 开源周过后,国产芯片厂在焦虑中狂欢

  • 2025-03-07
    北京
  • 本文字数:5134 字

    阅读完需:约 17 分钟

大小:2.60M时长:15:08
DeepSeek开源周过后,国产芯片厂在焦虑中狂欢

采访嘉宾|摩尔线程技术团队、清程极智技术团队


DeepSeek 上周一口气开源了五个开源库,这些项目看似技术名词堆砌,但实际上都是在解决 AI 计算中的关键问题,尤其是针对英伟达 GPU 的优化。

 

英伟达的 CUDA 生态是其最大的护城河,几乎所有 AI 开发者都依赖 CUDA 来优化 GPU 计算。然而,CUDA 的优化是通用的,不一定适合所有场景,尤其是国产芯片和特定 AI 任务的需求。

 

DeepSeek 的五个开源项目,从计算效率、通信优化、矩阵计算、任务调度到负载平衡,覆盖了 AI 计算中的多个关键环节。那这些对于开发者和国产芯片厂有什么意义?

DeepSeek 放出的开源大招,相当于在 CUDA 上架起一座桥

 

2 月 24 日,DeepSeek 发布了显卡的“加速器”FlashMLA,这是一个专门优化 GPU 计算效率的工具,特别适合处理不同长度的数据(比如长短不一的文本)。

它能让 GPU 在处理 AI 任务时更“聪明”,动态分配算力,避免资源浪费。比如翻译一段长文本和一段短文本时,它能根据任务需求调整算力,让速度更快、成本更低。

英伟达的 CUDA 生态虽然强大,但它的优化是通用的,不一定适合所有场景。FlashMLA 通过针对性地优化 GPU 计算效率,相当于在 CUDA 的基础上“开了一条快车道”,让国产芯片和开发者能更高效地利用英伟达 GPU。

 

2 月 25 日,DeepSeek 亮相了大模型训练的“通信管家”DeepEP,这是一个专门用于提升大模型训练效率的通信库,特别适合 MoE(混合专家)模型。

当多个 AI 模型协同工作时,DeepEP 能高效协调它们之间的通信,减少延迟和资源消耗。它还支持低精度计算(如 FP8),进一步节省算力。

大模型训练需要高效的通信和资源调度,而 CUDA 在这方面的优化有限。DeepEP 通过优化通信和低精度计算,让国产芯片和开发者能更高效地训练大模型。

 

2 月 26 日,我们迎来了矩阵计算的“省电小能手”DeepGEMM。众所周知,矩阵乘法是 AI 计算的基石,这款优化矩阵乘法的工具通过低精度计算(FP8)提升速度,再用 CUDA 技术修正误差,既快又准。DeepGEMM 的先进性在于,其代码只有 300 行,安装简单,适合快速部署。

 

2 月 27 日,DeepSeek 开源了两个工具和一个数据集:DualPipe、EPLB 以及来自训练和推理框架的分析数据,梁文锋本人也参与了两个项目的开发。

 

DualPipe 可以算得上是流水线并行的“调度大师”,当多个任务步骤速度不一致时,它能双向调度,减少空闲时间,让任务更流畅地完成。

 

2 月 28 日,DeepSeek 开源了 GPU 负载的“平衡大师” EPLB,当某些 AI 模型任务过重时,它会复制任务到空闲显卡,避免“忙的忙死,闲的闲死”。

 

可以说,DeepSeek 通过这一系列开源项目,证明了他们有能力深入剖解英伟达 CUDA 并对其进行调优,他们针对具体问题给出的解决方案让国产芯片厂和 AI 开发者能够更高效地利用 GPU 资源。

暂时绕不过 CUDA,但也有其他解决方案

 

相比于此次开源周带来的震撼,国产芯片厂早在 DeepSeek R1 发布后已经进行过一场酣畅淋漓的狂欢。

 

DeepSeek R1 发布几天后,似乎所有国产芯片厂商都陆续官宣已完成 DeepSeek 适配,算力芯片厂商华为昇腾、沐曦、天数智芯、摩尔线程、海光信息、壁仞科技、燧原科技、昆仑芯等相继宣布适配或上架 DeepSeek 模型服务,有些厂商部署的是蒸馏版模型,而华为昇腾、寒武纪、摩尔线程以及昆仑芯都在公开场合表示其完成满血版 DeepSeek 模型的适配。

 

那么,满血版和蒸馏版模型之间的区别是什么?

 

满血版模型与蒸馏版模型从模型结构上就是不同的,满血版是包含了 256 个专家的 MoE 混合专家模型,目前流行的蒸馏版一般都是稠密模型,基础模型一般是 Llama 或 Qwen。

 

满血版模型通常需要更强的硬件支持比如更多显存和更复杂的推理方案,比如 prefill 和 decode 分离、推理集群调度等。相比之下,蒸馏版模型通过知识蒸馏技术将大模型的能力迁移到较小的模型上,降低了对硬件的要求,但同时也牺牲了一定的性能。

 

适配满血版模型的关键技术包括混合精度计算、多机互联、以及对 MoE(混合专家系统)的支持。MoE 模型涉及多个专家,每次推理只激活部分参数,与传统的 Transformer 模型部署有很大不同,这里面可优化空间很大。

 

除了上述关键技术外,许多国产 AI 芯片厂商在部署满血版模型时还有一个硬伤——无法原生支持 FP8 数据类型。

 

DeepSeek 模型采用了 FP8 混合精度训练,英伟达从 H100 开始,AMD MI325X 都原生支持 FP8。那是否意味着,不原生支持 FP8 就无法适配满血版模型?

 

在采访中有业内人士表示:“原生支持 FP8 数据类型确实能够更好的支持满血版 DeepSeek 大模型,但不支持 FP8 的芯片也有解决方案,它们可以通过算子优化、参数量化等技术手段来弥补这一差距。例如,通过使用 FP16 或 INT8 进行推理,但这样会增加存储需求或降低精度

 

国产芯片/服务器如果要适配满血版 DeepSeek 模型,简单来说就是要大容量显存、多机互联、混合精度和软件兼容

 

首先,DeepSeek 参数量高达 671B,FP16 的精度下,单纯的参数量就高达 1.3T,而低精度量化虽然可以降低显存要求,但也带来了模型精度损失。

 

其次,需要具备强大的多机互联能力,以优化推理时服务器的通信效率,因为不降低精度的满血版模型往往需要数台多卡服务器协同运行。此外,如果要最大化发挥 DeepSeek 模型技术优势,尤其是要参考 DeepSeek 模型架构如何进行基础模型训练,因此芯片对 FP8 的原生支持是必不可少的,单纯的推理场景 FP8 支持也有重大价值。芯片/服务器还需要支持 MoE 训练/推理软件。

 

以摩尔线程为例,目前摩尔线程已经率先支持包括 FP8 在内的混合精度模型训练。摩尔线程全功能 GPU,原生支持 FP8 数据精度,支持 MTLink 高速互联技术,可以为 DeepSeek 满血版推理以及类 DeepSeek 架构模型训练提供优质的国产算力。

 

DeepSeek 的火爆为国产芯片注入了一剂强心剂。国产芯片可以跑通 DeepSeek,是不是证明我们已经可以绕过 CUDA 架构解决兼容性问题?答案是:我们正在接近这个目标,但尚未完全实现

 

在摩尔线程看来,DeepSeek 绕过 CUDA 是误读,其技术实现仍深度依赖 NVIDIA 生态的核心组件(PTX)。即使框架层试图抽象化 CUDA API,只要底层运行在 NVIDIA GPU 上,就不可避免与 CUDA 工具链和硬件驱动绑定。这种依赖关系反映了当前 AI 算力领域“NVIDIA 主导,开源生态依附”的现实格局。DeepSeek 的实践更多是在 CUDA 生态内优化,而非真正“绕过”它。

 

CUDA 生态壁垒的核心在于硬件与软件的深度耦合,以及由此形成的强大生态绑定效应。英伟达的 GPU 架构通过 CUDA 进行了深度优化,能够充分发挥硬件的并行计算能力。同时,CUDA 生态涵盖了从编程语言、API 到优化库的完整工具链,并与主流深度学习框架深度集成,形成了强大的开发者社区和应用生态。

 

摩尔线程表示:“如果希望在全球市场上挑战英伟达的 CUDA 生态,国产 GPU 厂商需要从多个方面寻找突破口。一是构建自主可控的软件生态是关键,其次,兼容与创新并行的策略也至关重要。此外,抓住新技术的机遇也是一个重要方向,比如 DeepSeek 的爆火,它的核心突破在于算法优化和计算效率的提升,这种低算力需求模型对国产芯片的发展是一个重要机遇。再有,通过开源和合作,吸引开发者参与,加速技术迭代,以及硬件层面的优化也非常重要。”

 

不得不承认的事实是,DeepSeek 等企业的技术迭代短期内难以完全脱离 CUDA 生态。但长期来看,随着国产替代的推进、算法优化能力的提升,以及行业对供应链安全的重视,将逐步降低单一依赖风险。这一过程需要时间和技术积累,但已是不可逆的趋势。未来的算力底座更可能呈现“多元共存”的形态,而非某一厂商的绝对主导。

国产芯片厂,在焦虑中狂欢

 

多年来,在全球 AI 算力市场,英伟达的 CUDA 生态牢牢把持着一切,包括其他厂商只能眼巴巴看着英伟达市值一再创新高,那个爱穿皮夹克的创始人黄仁勋“躺在印钞机上数钱”。但现在,DeepSeek 就像一条“鲶鱼”,给国产芯片厂商带来了“翻身”的希望。

 

DeepSeek 在技术上的突破,如 GRPO、MLA、FP8 训练等,共同构建了其深而宽的技术护城河。

 

以 FP8 为例,大模型不断演进,低精度计算成为 GPU 硬件的发展趋势。从最初的 FP32,到目前主流的 FP16、BF16,再到如今备受关注的 FP8,低精度计算不仅能显著提升计算速度和能效,还能减少内存占用,非常符合大模型时代对 GPU 硬件的要求。

 

采用 FP8 训练已逐渐成为大模型训练的一个重要研究方向。相较于主流的 FP16 和 BF16,FP8 在大模型训练和推理中展现出显著优势:首先,FP8 格式在相同硬件加速平台上的峰值性能显著超越 FP16 和 BF16,理论估计可提供两倍的性能提升。其次,得益于架构设计上的特殊优化,FP8 在实现 2 倍计算性能的同时,功耗更低。此外,FP8 的数值位数比 FP16 和 BF16 更少,这使得在一些内存占用较大的操作中,可以有效降低内存占用消耗。同时,传输数据量减半,从而显著降低通信开销。

 

摩尔线程 AI 技术专家观察到,DeepSeek 团队在实践中,尽量克制地去使用 FP8,仅在模型的 MLP 部分使用了 FP8 GEMM

 

不过在使用时对激活和权重做了细致的设计。考虑到激活和权重的数值分布区别,对其分别采用了 1x128 和 128x128 大小的 block-wise 量化,在尽可能保证训练精度的情况下利用到 FP8 带来的计算和传输优势,这样的设计得以让其 671B 的模型也能够保持稳定训练。

 

多层感知机(MLP):MLP 是一种前馈人工神经网络模型,它由多个层次的节点(神经元)组成,每个节点都与其下一层的所有节点相连。在大语言模型中,MLP 通常用于处理和转换数据,是模型中重要的组成部分。MLP 在大模型中,往往是计算量非常大的模块。

 

此外,算力资源和人才储备也是 DeepSeek 成功的关键因素。DeepSeek 通过分布式计算框架,将训练成本大幅降低,实现了算力的民主化。这些因素共同构成了 DeepSeek 的核心竞争力,使其在 AI 领域具有难以复制的优势

遍地是机遇

 

DeepSeek 的成功,也证明了国产芯片即使“底子”差一点,也能通过软件优化“弯道超车”。

 

摩尔线程表示,DeepSeek 的核心突破在于算法优化和计算效率的提升,这种低算力需求模型对国产芯片的发展是一个重要机遇。

 

首先,DeepSeek 的成功表明,通过模型压缩、稀疏计算、混合精度训练等技术手段降低算力需求,可以在一定程度上弥补硬件性能的不足,为国内芯片提供了软硬件协同设计的新思路,证明了在硬件性能短期内难以赶超的情况下,通过软件层面的创新仍可提升整体计算效能。

 

其次,DeepSeek 在混合精度训练方面的成功,展示了低精度计算在 AI 训练中的潜力。国内芯片厂商可以借鉴这种模式,优化芯片的计算单元,支持更灵活的精度配置

 

与此同时,DeepSeek 的开源模式为国产芯片厂商提供了与软件开发者合作的机会。通过与 DeepSeek 等开源模型的合作,国内芯片厂商可以更好地理解 AI 应用的需求,进行针对性优化,国产模型+国产芯片可以形成完整的 AI 闭环,加速国产 AI 生态发展进程

 

另外,DeepSeek 大幅降低 AI 成本,让 AI 更加普及,反过来又会提升对算力规模的需求。整体来看,国产芯片通过聚焦能效比、本地化服务和政策红利,有望在边缘和端侧市场、行业 AI 等场景实现突围

竞争加剧也是必然

 

DeepSeek 的出现,带来的当然不仅仅是遍地机遇,它也一定将会加速国产 AI 芯片领域的竞争。这种竞争不仅体现在技术突破和产品性能上,还体现在生态构建、市场落地和成本控制等多个维度。

 

DeepSeek 对竞争的影响主要是几个方面:

 

  • 加速技术迭代:DeepSeek 等 AI 技术的应用场景和需求不断扩展,倒逼 AI 芯片企业在算力、能效比、兼容性等方面快速迭代,技术落后的企业将面临更大的淘汰压力。

  • 推动生态合作:DeepSeek 的普及可能会促使 AI 芯片企业更加注重生态建设,包括与算法公司、云服务商、终端厂商的深度合作,形成更紧密的产业链协同。

  • 重新定义赛点:DeepSeek 的出现可能会将竞争推向一个新的高度,企业不仅需要在硬件性能上领先,还需要在软件栈、开发工具、应用场景支持等方面具备综合竞争力。

 

值得注意的是,这种竞争并非一味打价格战,疯狂内卷,未来算力竞争的核心在于性价比,而性价比的本质是“场景定义算力”。国产 GPU 厂商需摆脱单纯参数对标的思维,转而围绕客户真实需求定义芯片规格。

⼤模型算⼒的未来趋势

 

那么未来,大模型算力的发展趋势将是怎样的?

 

清程极智判断,未来⼤模型的算⼒趋势将是:推理侧算力需求大幅增长、算力需求多样化,而企业侧追求算力成本最优化。

 

随着 DeepSeek 等开源大模型的推出,越来越多的企业开始尝试将大模型与自身业务场景结合,推动了大模型推理侧算力需求的显著增长。此外,大模型的发展呈现出模型规模扩大、算法和模型结构复杂化的趋势。例如,DeepSeek 采用的 MoE(混合专家)架构,进一步增加了推理环节的计算需求。

 

算力需求的增长必然带来企业成本的上升,因此,如何节省算力、压缩成本成为企业关注的重点。清程极智表示,企业更倾向于采用性价比最高的软硬件一体化解决方案,以满足自身业务场景的需求。

 

清程极智还指出,未来算力需求将呈现多样化趋势,无论是小规模还是大规模算力需求都将并存。特别是中小企业的快速发展,大量小规模算力的大模型部署和微调需求将越来越多。

2025-03-07 10:0310871
用户头像
李冬梅 加V:busulishang4668

发布了 1041 篇内容, 共 654.0 次阅读, 收获喜欢 1204 次。

关注

评论

发布
暂无评论

如何进行需求分析?

老张

软件工程 需求分析

SAP | 选择屏幕

暮春零贰

SAP 10月月更 屏幕

liunx入门:Linux下基本指令

雪芙花

c++ Liunx 10月月更

文件的使用详解

lovevivi

c 文件 10月月更

ARM64架构下,OpenJDK的官方Docker镜像为何没有8版本?

程序员欣宸

Java Docker jdk 10月月更

Vue组件入门(十四)依赖注入

Augus

Vue 10月月更

2022-10-25:在一个 2 * 3 的板上(board)有 5 块砖瓦,用数字 1~5 来表示, 以及一块空缺用 0 来表示。一次 移动 定义为选择 0 与一个相邻的数字(上下左右)进行交换.

福大大架构师每日一题

算法 rust 福大大

威胁网络安全的主要因素

阿泽🧸

网络安全 10月月更

Nginx反向代理是什么意思?如何配置Nginx反向代理?

wljslmz

nginx 反向代理 web服务器 10月月更

vue3.0 是如何变快的

乌龟哥哥

10月月更

【c++算法篇】--图论之克鲁斯卡尔

贤鱼很忙

c++ 图论 10月月更 克鲁斯卡尔

概述Spark主要特点

穿过生命散发芬芳

spark 10月月更

【web 开发基础】PHP 快速入门(11)-PHP 运算符之运算符的优先级

迷彩

表达式 10月月更 web开发基础 PHP基础 运算符优先级

【web 开发基础】PHP的流程控制之单一分支结构-PHP 快速入门(12)

迷彩

10月月更 web开发基础 PHP基础 分支语句 if条件分支

leetcode 287. Find the Duplicate Number 寻找重复数 (中等)

okokabcd

LeetCode 数据结构与算法

数据湖(十一):Iceberg表数据组织与查询

Lansonli

数据湖 10月月更

力扣刷题训练

lovevivi

c 数据结构 10月月更

2022年元宇宙应用场景发展趋势分析

易观分析

元宇宙

Spring Boot「14」MVC 与前端控制器模式

Samson

Java spring 学习笔记 spring-boot 10月月更

CSS基础1

虾仁疙瘩汤

CSS css3 10月月更

深入浅出Python——Python高级语法之函数

何极光

Python 函数 10月月更

Commit之后发生了什么事情

我不吃六安茶

MySQL 事务

CSS学习笔记2

虾仁疙瘩汤

CSS css3 10月月更

css学习笔记3

虾仁疙瘩汤

CSS css3 10月月更

C语言内存对齐问题

乌龟哥哥

C'语言 10月月更

【c++图论例题学习】【口袋的天空】【部落划分】

贤鱼很忙

c++ 图论 10月月更

C++精通之路:map和set

雪芙花

c++ 10月月更

C++从入门到精通(第十篇) :二叉搜索树

雪芙花

c++ 10月月更

AntDesignPro使用electron构建桌面应用

乌龟哥哥

10月月更

【c++图论例题学习】洛谷p1991 无线通讯网-思路详解

贤鱼很忙

c++ 图论 10月月更

DeepSeek开源周过后,国产芯片厂在焦虑中狂欢_芯片&算力_李冬梅_InfoQ精选文章