写点什么

昇腾,又赢一局

  • 2025-03-18
    北京
  • 本文字数:2598 字

    阅读完需:约 9 分钟

昇腾,又赢一局

在 DeepSeek 轰炸 2025 春节之前,昇腾几乎就已经是中国市场最成功的“玩家”之一,而这种成功甚至不是完全通过出货量来定义的——虽然有数据称 2023 年华为海思(含昇腾系列)以 24.8% 的份额位居国内 AI 芯片市场首位,领先第二名至少 10%,但从 2024 年之后,网络上就不再有可参考的具体数据了。


从 InfoQ 近期沟通的多位业内人士的意见来看,业界对昇腾的信心,并没有随着数据图表的消失而变弱,反而越来越强。究其根源,在于昇腾的技术能力。


GPU 的制造有五大部分关键技术:制程工艺、指令集设计、计算单元设计、内存和缓存设计,以及对应的软件栈设计。除了代工由其他公司完成,从指令集到软件栈,华为完成了全栈自研。其中 CANN 软件栈,对标英伟达的 CUDA,综合下来,使得单卡算力逼近英伟达 A100 。


更大的启发在于,DeepSeek 绕过 CUDA 后,实现了惊人的性能提升,比如用 PTX 语言实现的硬件效率,比 Meta 等其他公司高出 10 倍,能够在五天内完成其他模型需十天才能实现的训练。


昇腾全栈自研,想必也有这样的潜能。这是许多人看好昇腾的内在逻辑。


可以说,国内的 AI 算力市场,留给其他玩家的空间并不大,DeepSeek 的爆发,是非常难得的搅局机会。但很可惜,这一次,昇腾似乎又跑在了国产芯片的最前方。

昇腾不喜欢玩虚的


以前人们只知道 DeepSeek,最近大家才知道,有个东西叫做“满血版”的 DeepSeek。


“满血版”,是大家认知中的 DeepSeek:参数规模 671B,支持 200k tokens 超长上下文理解,性能媲美 OpenAI o1。


而对应的是所谓的蒸馏版,如 DeepSeek-R1-Distill-Llama-70B。一些量化技术压缩后的版本,参数量仅为 DeepSeek-R1 的 1%-5%,使用体验也大幅退步。


功能上的阉割相对更加严重,DeepSeek 提供良好体验的前提是,同时勾选深度思考和联网搜索,但在一些厂商工具集成的入口上,又变成了“二选一”:想体验推理能力,就不能联网搜索,效果大打折扣。


这背后的关键在于,部署 DeepSeek-R1 还是相当耗费硬件资源的,比如使用 BF16 权重进行 DeepSeek-R1 的推理,硬件成本至少在 50-170 万之间。



资源有限,但想蹭热点,心态可以理解,不过上线一个“空壳”版本给用户,多少有点敷衍。


对于昇腾而言,这显然不是什么问题——作为 DeepSeek 推理服务的算力供应商,有业内人士透露,昇腾目前是国内唯一一个从预训练、微调、强化学习全流程支持 DeepSeek 的 AI 训练平台。


有接近华为的人士透露,昇腾的技术团队围绕 DeepSeek 做了许多技术上的优化,比如:通信效率。


以 OpenAI 为代表的模型厂商走的是“大专家”路线,专家数量以 16 个为主,单个专家的参数量较大;而 DeepSeek 走的是“小专家”路线,单个专家的参数量较小,但专家数量超过 256 个。更多的专家数量,意味着更高的通信开销,如果通信效率不能得到优化,推理速度就会受到限制。


昇腾通过伪 EP 混合并行算法来优化通信效率。所谓伪 EP 混合并行算法,顾名思义,是对专家并行(Expert Parallel,EP)算法的模拟和简化,可以理解为适用于大规模分布式 AI 模型训练场景的并行计算策略。具体有三种优化方式:


  1. 专家并行(EP):将模型中的不同专家(Expert)分配到不同的计算设备上,每个设备负责处理特定的专家。这种方式可以减少单个设备的计算负担,提高训练效率。

  2. 数据并行(DP):将数据集分割成多个子集,并在不同的设备上同时进行训练。这种方式可以充分利用多个设备的计算能力,加速模型训练。

  3. 张量并行(TP):将模型中的张量(多维数组或矩阵)按照特定维度分割,并分配到不同计算设备上进行并行计算。这种方式可以减少单个设备的内存需求,提高模型的可扩展性。


昇腾借此将 DeepSeek-R1 推理时的通信性能提升了 30%。


此外,昇腾对 DualPipe、跨节点 All2All ,尤其是 DeepSeek 团队提出的强化学习算法 Gpro 也进行了适配,借此使基于昇腾运行 DeepSeek 的性能和效率可以更高。

一个“虚拟联盟”正在结成


事实上,通信优化是适配 DeepSeek 相当关键的技术命题,而这一直都是华为擅长的内容。


比如 2024 年 9 月发布的昇腾超节点技术,通过机柜级大带宽通信设计,将 NPU 节点从单机 8 卡拓展到机柜几十卡以上,中间采用了大量的自研通信协议,如:HCCS(High-Performance Computing and Communication System)、NB2.0、NHR 等。


昇腾官方口径数据称,昇腾超节点技术可以将带宽利用率从不足 40% 提升到了 60% 以上,可实现 2250 节点(等效于 18000 张卡)超大规模无收敛集群组网。


这使得昇腾成为国内少有的具备超大规模集群组建能力的厂商,并直接促成了华为和三大运营商、科大讯飞等企业的合作。


事实上,华为的这种技术优势,以及对 DeepSeek 的深度优化能力,正在成为其撬动行业资源,形成统一阵地的跳板。


春节前,昇腾和硅基流动达成了深度合作。InfoQ 独家消息显示,硅基流动是 DeepSeek-R1 发布后,主动找到昇腾,提议合作的第一家 AI Infra 公司。双方围绕 DeepSeek 的合作进展非常快,以至于集结了昇腾、硅基流动、幻方三方的座谈会,以及基于昇腾的性能调优版本的上线,全部发生于大年初一前。


到了 2 月 12 日,又有消息称,小鹏汽车董事长何小鹏、宇树科技创始人王兴兴、投资人徐新、硅基流动 CEO 袁进辉、面壁智能 CEO 李大海、霸王茶姬张俊杰等前往华为拜访学习,并与任正非进行交流。


至少在公开报道中,这样的闭门会已经很久没发生过了,简直不像是华为的风格。



或许,DeepSeek-R1 的诞生,已经触发了中国 AI 产业发展的一个隐藏的“开关”,围绕华为昇腾结成的“虚拟产业联盟”,正在进一步加深交流和合作。


大量的 DeepSeek 一体机,于近期密集发布,发布厂商包括华鲲振宇、宝德、神州鲲泰、长江计算等,全部基于昇腾产品构建。DeepSeek  一体机,几乎成了产业合作的一个象征和徽记。


另有数据显示,目前各行业已有 80+企业基于昇腾快速适配/上线了 DeepSeek 系列模型,并在对外提供服务,此外还有 20+ 企业在适配测试中,预计未来两周内全部完成上线,总体来说,国内 70% 的企业将基于昇腾向 DeepSeek 靠拢。


相较于进口 GPU 方案,昇腾芯片的本地化服务和团队,对部署 DeepSeek 的效果影响显著。以万卡规模的数据中心为例,MindSpore 工具链的自动并行功能,使分布式训练代码量减少 70%。有某智慧城市项目的实践表明,采用昇腾方案后,AI 推理模块的 TCO(总拥有成本)三年期下降 42%。


这么来看, DeepSeek 取得的成绩,只是一个阶段性的胜利。而作为产业链的上游,昇腾担负的风险却在减少,着实赢了个彻底。

2025-03-18 16:555562
用户头像
王一鹏 InfoQ 总经理

发布了 182 篇内容, 共 131.4 次阅读, 收获喜欢 482 次。

关注

评论 3 条评论

发布
用户头像
又赢了?又拉了坨大的
2025-03-19 09:19 · 日本
回复
谢谢
2025-03-19 19:31 · 北京
回复
用户头像
1
2025-03-19 08:33 · 广东
回复
没有更多了

leetcode 114. Flatten Binary Tree to Linked List 二叉树展开为链表(简单)

okokabcd

LeetCode 算法与数据结构

你以为Shell只是命令行?读懂这篇文,给你的工作赋能

霍格沃兹测试开发学社

代码分析体系及Sonarqube平台

霍格沃兹测试开发学社

软件测试 自动化测试 测试开发

程序员交接代码中被植入了恶意删除操作,太狠了!

程序员小毕

Java 程序员 面试 程序人生 码农

软件测试 | 测试开发 | 如何利用 xUnit 框架对测试用例进行维护?

测吧(北京)科技有限公司

软件测试

从 Linux 内核角度探秘 JDK NIO 文件读写本质

bin的技术小屋

Linux jdk nio Linux Kenel 文件I/O

利器 | TestNG 与 Junit 对比,测试框架如何选择?

霍格沃兹测试开发学社

软件测试 自动化测试 测试开发

利器 | Java 接口自动化测试首选方案:REST Assured 实践 (一)

霍格沃兹测试开发学社

代码质量管理平台实战| SonarQube 安装、配置及 JaCoCo、Maven 集成

霍格沃兹测试开发学社

软件测试 自动化测试 测试开发

面试官:如何组装一个注册中心?

Java永远的神

编程 程序员 面试 微服务 注册中心

Apache Hudi X Apache Kyuubi,中国移动云湖仓一体的探索与实践

网易数帆

大数据 Kyuubi Hudi LakeHouse 湖仓一体

Xshell 7 安装激活与换机转移许可证教程详解

淋雨

Linux xshell #运维

隐私计算中的算子是个啥?可视化组合配置的算子解决方案了解下

Jessica@数牍

隐私计算 算子 隐私计算性能

【xShell 7】强悍的Linux远程链接工具、终端模拟器

淋雨

Linux 运维 xshell

一文搞懂测试左移和测试右移的 Why-How-What

霍格沃兹测试开发学社

软件测试 自动化测试 测试开发

数字藏品系统软件开发

开源直播系统源码

NFT 数字藏品 数字藏品系统软件开发 数字藏品app

一文带你了解接口测试价值与体系

霍格沃兹测试开发学社

软件测试 自动化测试 测试开发

无代码开发平台怎么选?选择合适无代码平台的13个关键步骤

优秀

无代码平台

「工作小记」小程序开发的喜怒哀乐

叶一一

小程序 前端 9月月更

利器 | REST Assured 实践(二):断言实现

霍格沃兹测试开发学社

软件测试 自动化测试 测试开发

阿里云丁宇:以领先的云原生技术,激活应用构建新范式

阿里巴巴中间件

阿里云 云原生 应用构建

隐私计算,让企业大数据走进数据网络时代

Jessica@数牍

利器 | AppCrawler 自动遍历测试实践(三):动手实操与常见问题汇总

霍格沃兹测试开发学社

软件测试 自动化测试 测试开发

云架构系统如何做性能分析?| 实战干货

霍格沃兹测试开发学社

软件测试 自动化测试 测试开发

数据可视化系列教程之React组件使用技巧

云智慧AIOps社区

前端 React 数据可视化

不懂PO 设计模式?这篇实战文带你搞定 PO

霍格沃兹测试开发学社

软件测试 自动化测试 测试开发

软件测试 | 测试开发 | HttpRunner初体验

测吧(北京)科技有限公司

软件测试 测试

DevStream 社区贡献者英雄榜上线啦!

玩转Devop和研发效能DevStream/DevLake

开源 DevOps 开源社区 DevStream 开源运营

软件测试 | 测试开发 | 免安装免配置环境的免费 ios 调试工具 sib 来啦

测吧(北京)科技有限公司

ios 测试

一文彻底理解 Cookie、Session、Token

霍格沃兹测试开发学社

软件测试 自动化测试 测试开发

昇腾,又赢一局_华为_王一鹏_InfoQ精选文章