2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

昇腾,又赢一局

  • 2025-03-18
    北京
  • 本文字数:2598 字

    阅读完需:约 9 分钟

昇腾,又赢一局

在 DeepSeek 轰炸 2025 春节之前,昇腾几乎就已经是中国市场最成功的“玩家”之一,而这种成功甚至不是完全通过出货量来定义的——虽然有数据称 2023 年华为海思(含昇腾系列)以 24.8% 的份额位居国内 AI 芯片市场首位,领先第二名至少 10%,但从 2024 年之后,网络上就不再有可参考的具体数据了。


从 InfoQ 近期沟通的多位业内人士的意见来看,业界对昇腾的信心,并没有随着数据图表的消失而变弱,反而越来越强。究其根源,在于昇腾的技术能力。


GPU 的制造有五大部分关键技术:制程工艺、指令集设计、计算单元设计、内存和缓存设计,以及对应的软件栈设计。除了代工由其他公司完成,从指令集到软件栈,华为完成了全栈自研。其中 CANN 软件栈,对标英伟达的 CUDA,综合下来,使得单卡算力逼近英伟达 A100 。


更大的启发在于,DeepSeek 绕过 CUDA 后,实现了惊人的性能提升,比如用 PTX 语言实现的硬件效率,比 Meta 等其他公司高出 10 倍,能够在五天内完成其他模型需十天才能实现的训练。


昇腾全栈自研,想必也有这样的潜能。这是许多人看好昇腾的内在逻辑。


可以说,国内的 AI 算力市场,留给其他玩家的空间并不大,DeepSeek 的爆发,是非常难得的搅局机会。但很可惜,这一次,昇腾似乎又跑在了国产芯片的最前方。

昇腾不喜欢玩虚的


以前人们只知道 DeepSeek,最近大家才知道,有个东西叫做“满血版”的 DeepSeek。


“满血版”,是大家认知中的 DeepSeek:参数规模 671B,支持 200k tokens 超长上下文理解,性能媲美 OpenAI o1。


而对应的是所谓的蒸馏版,如 DeepSeek-R1-Distill-Llama-70B。一些量化技术压缩后的版本,参数量仅为 DeepSeek-R1 的 1%-5%,使用体验也大幅退步。


功能上的阉割相对更加严重,DeepSeek 提供良好体验的前提是,同时勾选深度思考和联网搜索,但在一些厂商工具集成的入口上,又变成了“二选一”:想体验推理能力,就不能联网搜索,效果大打折扣。


这背后的关键在于,部署 DeepSeek-R1 还是相当耗费硬件资源的,比如使用 BF16 权重进行 DeepSeek-R1 的推理,硬件成本至少在 50-170 万之间。



资源有限,但想蹭热点,心态可以理解,不过上线一个“空壳”版本给用户,多少有点敷衍。


对于昇腾而言,这显然不是什么问题——作为 DeepSeek 推理服务的算力供应商,有业内人士透露,昇腾目前是国内唯一一个从预训练、微调、强化学习全流程支持 DeepSeek 的 AI 训练平台。


有接近华为的人士透露,昇腾的技术团队围绕 DeepSeek 做了许多技术上的优化,比如:通信效率。


以 OpenAI 为代表的模型厂商走的是“大专家”路线,专家数量以 16 个为主,单个专家的参数量较大;而 DeepSeek 走的是“小专家”路线,单个专家的参数量较小,但专家数量超过 256 个。更多的专家数量,意味着更高的通信开销,如果通信效率不能得到优化,推理速度就会受到限制。


昇腾通过伪 EP 混合并行算法来优化通信效率。所谓伪 EP 混合并行算法,顾名思义,是对专家并行(Expert Parallel,EP)算法的模拟和简化,可以理解为适用于大规模分布式 AI 模型训练场景的并行计算策略。具体有三种优化方式:


  1. 专家并行(EP):将模型中的不同专家(Expert)分配到不同的计算设备上,每个设备负责处理特定的专家。这种方式可以减少单个设备的计算负担,提高训练效率。

  2. 数据并行(DP):将数据集分割成多个子集,并在不同的设备上同时进行训练。这种方式可以充分利用多个设备的计算能力,加速模型训练。

  3. 张量并行(TP):将模型中的张量(多维数组或矩阵)按照特定维度分割,并分配到不同计算设备上进行并行计算。这种方式可以减少单个设备的内存需求,提高模型的可扩展性。


昇腾借此将 DeepSeek-R1 推理时的通信性能提升了 30%。


此外,昇腾对 DualPipe、跨节点 All2All ,尤其是 DeepSeek 团队提出的强化学习算法 Gpro 也进行了适配,借此使基于昇腾运行 DeepSeek 的性能和效率可以更高。

一个“虚拟联盟”正在结成


事实上,通信优化是适配 DeepSeek 相当关键的技术命题,而这一直都是华为擅长的内容。


比如 2024 年 9 月发布的昇腾超节点技术,通过机柜级大带宽通信设计,将 NPU 节点从单机 8 卡拓展到机柜几十卡以上,中间采用了大量的自研通信协议,如:HCCS(High-Performance Computing and Communication System)、NB2.0、NHR 等。


昇腾官方口径数据称,昇腾超节点技术可以将带宽利用率从不足 40% 提升到了 60% 以上,可实现 2250 节点(等效于 18000 张卡)超大规模无收敛集群组网。


这使得昇腾成为国内少有的具备超大规模集群组建能力的厂商,并直接促成了华为和三大运营商、科大讯飞等企业的合作。


事实上,华为的这种技术优势,以及对 DeepSeek 的深度优化能力,正在成为其撬动行业资源,形成统一阵地的跳板。


春节前,昇腾和硅基流动达成了深度合作。InfoQ 独家消息显示,硅基流动是 DeepSeek-R1 发布后,主动找到昇腾,提议合作的第一家 AI Infra 公司。双方围绕 DeepSeek 的合作进展非常快,以至于集结了昇腾、硅基流动、幻方三方的座谈会,以及基于昇腾的性能调优版本的上线,全部发生于大年初一前。


到了 2 月 12 日,又有消息称,小鹏汽车董事长何小鹏、宇树科技创始人王兴兴、投资人徐新、硅基流动 CEO 袁进辉、面壁智能 CEO 李大海、霸王茶姬张俊杰等前往华为拜访学习,并与任正非进行交流。


至少在公开报道中,这样的闭门会已经很久没发生过了,简直不像是华为的风格。



或许,DeepSeek-R1 的诞生,已经触发了中国 AI 产业发展的一个隐藏的“开关”,围绕华为昇腾结成的“虚拟产业联盟”,正在进一步加深交流和合作。


大量的 DeepSeek 一体机,于近期密集发布,发布厂商包括华鲲振宇、宝德、神州鲲泰、长江计算等,全部基于昇腾产品构建。DeepSeek  一体机,几乎成了产业合作的一个象征和徽记。


另有数据显示,目前各行业已有 80+企业基于昇腾快速适配/上线了 DeepSeek 系列模型,并在对外提供服务,此外还有 20+ 企业在适配测试中,预计未来两周内全部完成上线,总体来说,国内 70% 的企业将基于昇腾向 DeepSeek 靠拢。


相较于进口 GPU 方案,昇腾芯片的本地化服务和团队,对部署 DeepSeek 的效果影响显著。以万卡规模的数据中心为例,MindSpore 工具链的自动并行功能,使分布式训练代码量减少 70%。有某智慧城市项目的实践表明,采用昇腾方案后,AI 推理模块的 TCO(总拥有成本)三年期下降 42%。


这么来看, DeepSeek 取得的成绩,只是一个阶段性的胜利。而作为产业链的上游,昇腾担负的风险却在减少,着实赢了个彻底。

2025-03-18 16:555331
用户头像
王一鹏 InfoQ 总编辑

发布了 181 篇内容, 共 128.2 次阅读, 收获喜欢 482 次。

关注

评论 3 条评论

发布
用户头像
又赢了?又拉了坨大的
2025-03-19 09:19 · 日本
回复
谢谢
2025-03-19 19:31 · 北京
回复
用户头像
1
2025-03-19 08:33 · 广东
回复
没有更多了

2022 DEMO CHINA 创新中国峰会将于9月7-8日在无锡举办

创业邦

冠军斩获10万奖金!首届"域见杯"医检AI开发者大赛精彩落幕

华为云开发者联盟

人工智能 华为云 医检

NFT链游系统开发链游Dapp前景

薇電13242772558

dapp NFT

携手共建云原生生态 阿里云云原生加速器第二次集结圆满结营

阿里巴巴云原生

阿里云 云原生加速器

AppCube视角浅析: 艾瑞咨询《2022年中国低代码行业研究报告》

华为云开发者联盟

后端 开发

Python自学教程7-字典有哪些常用操作

和牛

Python 测试 8月月更

企业号九月金秋榜

InfoQ写作社区官方

企业号九月金秋榜

新书上市 | 关于推荐系统,这本书包含了你想知道的一切!

图灵社区

云原生赋能智能网联汽车消息处理基础框架构建|车联网系列专题08

EMQ映云科技

车联网 物联网 IoT emq 8月月更

新书上市 | 关于推荐系统,这本书包含了你想知道的一切!

图灵教育

瑞云科技荣获全国电子信息行业专精特新“最具创新价值 TOP20”!

3DCAT实时渲染

2022亚洲视博会圆满落幕,3DCAT荣获“优秀沉浸式视觉解决方案”奖

3DCAT实时渲染

实时云渲染如何助力虚拟展厅

3DCAT实时渲染

云计算 元宇宙 实时渲染 实时云渲染 云VR

关于游戏中的实时渲染

3DCAT实时渲染

云计算 元宇宙 实时渲染 实时云渲染 云VR

40% 的云原生开发者专注于微服务领域

阿里巴巴云原生

阿里云 微服务 云原生

如何把thinkphp5的项目迁移到阿里云函数计算来应对流量洪峰?

Serverless Devs

阿里云 k8s 微服务框架

自动化运维体系必不可少的系统

穿过生命散发芬芳

自动化运维 8月月更

【计算讲谈社】第十讲|当云计算遇上碳中和

大咖说

云计算 碳中和

实时云渲染有哪些特点,主要优势有哪些

3DCAT实时渲染

云计算 元宇宙 实时渲染 实时云渲染 云VR

什么是实时渲染,实时渲染是如何工作的

3DCAT实时渲染

云计算 元宇宙 实时渲染 实时云渲染 云VR

【8.19-8.26】写作社区精彩技术博文回顾

InfoQ写作社区官方

优质创作周报

室外LED显示屏要如何进行合理的散热呢?

Dylan

LED显示屏 户外LED显示屏 led显示屏厂家

Node.js | 从前端到全栈的必经之路

海底烧烤店ai

node.js 前端 全栈 8月月更

【温氏集团】流程驱动的运维自动化在温氏集团的实践

嘉为蓝鲸

运维 AIOPS

多人沉浸式音乐互动,3DCAT实时云渲染新业务场景来袭

3DCAT实时渲染

云计算 元宇宙 实时渲染云

2分钟了解什么是实时渲染

3DCAT实时渲染

云计算 元宇宙 实时渲染 实时云渲染 云VR

兆骑科创创新创业服务平台——创新创业的联通之桥

兆骑科创凤阁

2022秋招面试题,至今已有672名学长靠这套Java八股文成功入职大厂

退休的汤姆

Java 程序员 面经 Java工程师 秋招

容器化 | 使用 Alpine 构建 Redis 镜像

RadonDB

redis 镜像 RadonDB 数据库·

数据编排的音乐解法

Alluxio

科普 Alluxio 数据编排 8月月更

昇腾,又赢一局_华为_王一鹏_InfoQ精选文章