昇腾，又赢一局

在 DeepSeek 轰炸 2025 春节之前，昇腾几乎就已经是中国市场最成功的“玩家”之一，而这种成功甚至不是完全通过出货量来定义的——虽然有数据称 2023 年华为海思（含昇腾系列）以 24.8% 的份额位居国内 AI 芯片市场首位，领先第二名至少 10%，但从 2024 年之后，网络上就不再有可参考的具体数据了。

从 InfoQ 近期沟通的多位业内人士的意见来看，业界对昇腾的信心，并没有随着数据图表的消失而变弱，反而越来越强。究其根源，在于昇腾的技术能力。

GPU 的制造有五大部分关键技术：制程工艺、指令集设计、计算单元设计、内存和缓存设计，以及对应的软件栈设计。除了代工由其他公司完成，从指令集到软件栈，华为完成了全栈自研。其中 CANN 软件栈，对标英伟达的 CUDA，综合下来，使得单卡算力逼近英伟达 A100 。

更大的启发在于，DeepSeek 绕过 CUDA 后，实现了惊人的性能提升，比如用 PTX 语言实现的硬件效率，比 Meta 等其他公司高出 10 倍，能够在五天内完成其他模型需十天才能实现的训练。

昇腾全栈自研，想必也有这样的潜能。这是许多人看好昇腾的内在逻辑。

可以说，国内的 AI 算力市场，留给其他玩家的空间并不大，DeepSeek 的爆发，是非常难得的搅局机会。但很可惜，这一次，昇腾似乎又跑在了国产芯片的最前方。

昇腾不喜欢玩虚的

以前人们只知道 DeepSeek，最近大家才知道，有个东西叫做“满血版”的 DeepSeek。

“满血版”，是大家认知中的 DeepSeek：参数规模 671B，支持 200k tokens 超长上下文理解，性能媲美 OpenAI o1。

而对应的是所谓的蒸馏版，如 DeepSeek-R1-Distill-Llama-70B。一些量化技术压缩后的版本，参数量仅为 DeepSeek-R1 的 1%-5%，使用体验也大幅退步。

功能上的阉割相对更加严重，DeepSeek 提供良好体验的前提是，同时勾选深度思考和联网搜索，但在一些厂商工具集成的入口上，又变成了“二选一”：想体验推理能力，就不能联网搜索，效果大打折扣。

这背后的关键在于，部署 DeepSeek-R1 还是相当耗费硬件资源的，比如使用 BF16 权重进行 DeepSeek-R1 的推理，硬件成本至少在 50-170 万之间。

资源有限，但想蹭热点，心态可以理解，不过上线一个“空壳”版本给用户，多少有点敷衍。

对于昇腾而言，这显然不是什么问题——作为 DeepSeek 推理服务的算力供应商，有业内人士透露，昇腾目前是国内唯一一个从预训练、微调、强化学习全流程支持 DeepSeek 的 AI 训练平台。

有接近华为的人士透露，昇腾的技术团队围绕 DeepSeek 做了许多技术上的优化，比如：通信效率。

以 OpenAI 为代表的模型厂商走的是“大专家”路线，专家数量以 16 个为主，单个专家的参数量较大；而 DeepSeek 走的是“小专家”路线，单个专家的参数量较小，但专家数量超过 256 个。更多的专家数量，意味着更高的通信开销，如果通信效率不能得到优化，推理速度就会受到限制。

昇腾通过伪 EP 混合并行算法来优化通信效率。所谓伪 EP 混合并行算法，顾名思义，是对专家并行（Expert Parallel，EP）算法的模拟和简化，可以理解为适用于大规模分布式 AI 模型训练场景的并行计算策略。具体有三种优化方式：

专家并行（EP）：将模型中的不同专家（Expert）分配到不同的计算设备上，每个设备负责处理特定的专家。这种方式可以减少单个设备的计算负担，提高训练效率。
数据并行（DP）：将数据集分割成多个子集，并在不同的设备上同时进行训练。这种方式可以充分利用多个设备的计算能力，加速模型训练。
张量并行（TP）：将模型中的张量（多维数组或矩阵）按照特定维度分割，并分配到不同计算设备上进行并行计算。这种方式可以减少单个设备的内存需求，提高模型的可扩展性。

昇腾借此将 DeepSeek-R1 推理时的通信性能提升了 30%。

此外，昇腾对 DualPipe、跨节点 All2All ，尤其是 DeepSeek 团队提出的强化学习算法 Gpro 也进行了适配，借此使基于昇腾运行 DeepSeek 的性能和效率可以更高。

一个“虚拟联盟”正在结成

事实上，通信优化是适配 DeepSeek 相当关键的技术命题，而这一直都是华为擅长的内容。

比如 2024 年 9 月发布的昇腾超节点技术，通过机柜级大带宽通信设计，将 NPU 节点从单机 8 卡拓展到机柜几十卡以上，中间采用了大量的自研通信协议，如：HCCS（High-Performance Computing and Communication System）、NB2.0、NHR 等。

昇腾官方口径数据称，昇腾超节点技术可以将带宽利用率从不足 40% 提升到了 60% 以上，可实现 2250 节点（等效于 18000 张卡）超大规模无收敛集群组网。

这使得昇腾成为国内少有的具备超大规模集群组建能力的厂商，并直接促成了华为和三大运营商、科大讯飞等企业的合作。

事实上，华为的这种技术优势，以及对 DeepSeek 的深度优化能力，正在成为其撬动行业资源，形成统一阵地的跳板。

春节前，昇腾和硅基流动达成了深度合作。InfoQ 独家消息显示，硅基流动是 DeepSeek-R1 发布后，主动找到昇腾，提议合作的第一家 AI Infra 公司。双方围绕 DeepSeek 的合作进展非常快，以至于集结了昇腾、硅基流动、幻方三方的座谈会，以及基于昇腾的性能调优版本的上线，全部发生于大年初一前。

到了 2 月 12 日，又有消息称，小鹏汽车董事长何小鹏、宇树科技创始人王兴兴、投资人徐新、硅基流动 CEO 袁进辉、面壁智能 CEO 李大海、霸王茶姬张俊杰等前往华为拜访学习，并与任正非进行交流。

至少在公开报道中，这样的闭门会已经很久没发生过了，简直不像是华为的风格。

或许，DeepSeek-R1 的诞生，已经触发了中国 AI 产业发展的一个隐藏的“开关”，围绕华为昇腾结成的“虚拟产业联盟”，正在进一步加深交流和合作。

大量的 DeepSeek 一体机，于近期密集发布，发布厂商包括华鲲振宇、宝德、神州鲲泰、长江计算等，全部基于昇腾产品构建。DeepSeek 一体机，几乎成了产业合作的一个象征和徽记。

另有数据显示，目前各行业已有 80+企业基于昇腾快速适配/上线了 DeepSeek 系列模型，并在对外提供服务，此外还有 20+ 企业在适配测试中，预计未来两周内全部完成上线，总体来说，国内 70% 的企业将基于昇腾向 DeepSeek 靠拢。

相较于进口 GPU 方案，昇腾芯片的本地化服务和团队，对部署 DeepSeek 的效果影响显著。以万卡规模的数据中心为例，MindSpore 工具链的自动并行功能，使分布式训练代码量减少 70%。有某智慧城市项目的实践表明，采用昇腾方案后，AI 推理模块的 TCO（总拥有成本）三年期下降 42%。

这么来看， DeepSeek 取得的成绩，只是一个阶段性的胜利。而作为产业链的上游，昇腾担负的风险却在减少，着实赢了个彻底。

创作场景

昇腾，又赢一局

昇腾不喜欢玩虚的

一个“虚拟联盟”正在结成