2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

昇腾,又赢一局

  • 2025-03-18
    北京
  • 本文字数:2598 字

    阅读完需:约 9 分钟

昇腾,又赢一局

在 DeepSeek 轰炸 2025 春节之前,昇腾几乎就已经是中国市场最成功的“玩家”之一,而这种成功甚至不是完全通过出货量来定义的——虽然有数据称 2023 年华为海思(含昇腾系列)以 24.8% 的份额位居国内 AI 芯片市场首位,领先第二名至少 10%,但从 2024 年之后,网络上就不再有可参考的具体数据了。


从 InfoQ 近期沟通的多位业内人士的意见来看,业界对昇腾的信心,并没有随着数据图表的消失而变弱,反而越来越强。究其根源,在于昇腾的技术能力。


GPU 的制造有五大部分关键技术:制程工艺、指令集设计、计算单元设计、内存和缓存设计,以及对应的软件栈设计。除了代工由其他公司完成,从指令集到软件栈,华为完成了全栈自研。其中 CANN 软件栈,对标英伟达的 CUDA,综合下来,使得单卡算力逼近英伟达 A100 。


更大的启发在于,DeepSeek 绕过 CUDA 后,实现了惊人的性能提升,比如用 PTX 语言实现的硬件效率,比 Meta 等其他公司高出 10 倍,能够在五天内完成其他模型需十天才能实现的训练。


昇腾全栈自研,想必也有这样的潜能。这是许多人看好昇腾的内在逻辑。


可以说,国内的 AI 算力市场,留给其他玩家的空间并不大,DeepSeek 的爆发,是非常难得的搅局机会。但很可惜,这一次,昇腾似乎又跑在了国产芯片的最前方。

昇腾不喜欢玩虚的


以前人们只知道 DeepSeek,最近大家才知道,有个东西叫做“满血版”的 DeepSeek。


“满血版”,是大家认知中的 DeepSeek:参数规模 671B,支持 200k tokens 超长上下文理解,性能媲美 OpenAI o1。


而对应的是所谓的蒸馏版,如 DeepSeek-R1-Distill-Llama-70B。一些量化技术压缩后的版本,参数量仅为 DeepSeek-R1 的 1%-5%,使用体验也大幅退步。


功能上的阉割相对更加严重,DeepSeek 提供良好体验的前提是,同时勾选深度思考和联网搜索,但在一些厂商工具集成的入口上,又变成了“二选一”:想体验推理能力,就不能联网搜索,效果大打折扣。


这背后的关键在于,部署 DeepSeek-R1 还是相当耗费硬件资源的,比如使用 BF16 权重进行 DeepSeek-R1 的推理,硬件成本至少在 50-170 万之间。



资源有限,但想蹭热点,心态可以理解,不过上线一个“空壳”版本给用户,多少有点敷衍。


对于昇腾而言,这显然不是什么问题——作为 DeepSeek 推理服务的算力供应商,有业内人士透露,昇腾目前是国内唯一一个从预训练、微调、强化学习全流程支持 DeepSeek 的 AI 训练平台。


有接近华为的人士透露,昇腾的技术团队围绕 DeepSeek 做了许多技术上的优化,比如:通信效率。


以 OpenAI 为代表的模型厂商走的是“大专家”路线,专家数量以 16 个为主,单个专家的参数量较大;而 DeepSeek 走的是“小专家”路线,单个专家的参数量较小,但专家数量超过 256 个。更多的专家数量,意味着更高的通信开销,如果通信效率不能得到优化,推理速度就会受到限制。


昇腾通过伪 EP 混合并行算法来优化通信效率。所谓伪 EP 混合并行算法,顾名思义,是对专家并行(Expert Parallel,EP)算法的模拟和简化,可以理解为适用于大规模分布式 AI 模型训练场景的并行计算策略。具体有三种优化方式:


  1. 专家并行(EP):将模型中的不同专家(Expert)分配到不同的计算设备上,每个设备负责处理特定的专家。这种方式可以减少单个设备的计算负担,提高训练效率。

  2. 数据并行(DP):将数据集分割成多个子集,并在不同的设备上同时进行训练。这种方式可以充分利用多个设备的计算能力,加速模型训练。

  3. 张量并行(TP):将模型中的张量(多维数组或矩阵)按照特定维度分割,并分配到不同计算设备上进行并行计算。这种方式可以减少单个设备的内存需求,提高模型的可扩展性。


昇腾借此将 DeepSeek-R1 推理时的通信性能提升了 30%。


此外,昇腾对 DualPipe、跨节点 All2All ,尤其是 DeepSeek 团队提出的强化学习算法 Gpro 也进行了适配,借此使基于昇腾运行 DeepSeek 的性能和效率可以更高。

一个“虚拟联盟”正在结成


事实上,通信优化是适配 DeepSeek 相当关键的技术命题,而这一直都是华为擅长的内容。


比如 2024 年 9 月发布的昇腾超节点技术,通过机柜级大带宽通信设计,将 NPU 节点从单机 8 卡拓展到机柜几十卡以上,中间采用了大量的自研通信协议,如:HCCS(High-Performance Computing and Communication System)、NB2.0、NHR 等。


昇腾官方口径数据称,昇腾超节点技术可以将带宽利用率从不足 40% 提升到了 60% 以上,可实现 2250 节点(等效于 18000 张卡)超大规模无收敛集群组网。


这使得昇腾成为国内少有的具备超大规模集群组建能力的厂商,并直接促成了华为和三大运营商、科大讯飞等企业的合作。


事实上,华为的这种技术优势,以及对 DeepSeek 的深度优化能力,正在成为其撬动行业资源,形成统一阵地的跳板。


春节前,昇腾和硅基流动达成了深度合作。InfoQ 独家消息显示,硅基流动是 DeepSeek-R1 发布后,主动找到昇腾,提议合作的第一家 AI Infra 公司。双方围绕 DeepSeek 的合作进展非常快,以至于集结了昇腾、硅基流动、幻方三方的座谈会,以及基于昇腾的性能调优版本的上线,全部发生于大年初一前。


到了 2 月 12 日,又有消息称,小鹏汽车董事长何小鹏、宇树科技创始人王兴兴、投资人徐新、硅基流动 CEO 袁进辉、面壁智能 CEO 李大海、霸王茶姬张俊杰等前往华为拜访学习,并与任正非进行交流。


至少在公开报道中,这样的闭门会已经很久没发生过了,简直不像是华为的风格。



或许,DeepSeek-R1 的诞生,已经触发了中国 AI 产业发展的一个隐藏的“开关”,围绕华为昇腾结成的“虚拟产业联盟”,正在进一步加深交流和合作。


大量的 DeepSeek 一体机,于近期密集发布,发布厂商包括华鲲振宇、宝德、神州鲲泰、长江计算等,全部基于昇腾产品构建。DeepSeek  一体机,几乎成了产业合作的一个象征和徽记。


另有数据显示,目前各行业已有 80+企业基于昇腾快速适配/上线了 DeepSeek 系列模型,并在对外提供服务,此外还有 20+ 企业在适配测试中,预计未来两周内全部完成上线,总体来说,国内 70% 的企业将基于昇腾向 DeepSeek 靠拢。


相较于进口 GPU 方案,昇腾芯片的本地化服务和团队,对部署 DeepSeek 的效果影响显著。以万卡规模的数据中心为例,MindSpore 工具链的自动并行功能,使分布式训练代码量减少 70%。有某智慧城市项目的实践表明,采用昇腾方案后,AI 推理模块的 TCO(总拥有成本)三年期下降 42%。


这么来看, DeepSeek 取得的成绩,只是一个阶段性的胜利。而作为产业链的上游,昇腾担负的风险却在减少,着实赢了个彻底。

2025-03-18 16:556882
用户头像
王一鹏 InfoQ 总经理

发布了 194 篇内容, 共 144.1 次阅读, 收获喜欢 488 次。

关注

评论 3 条评论

发布
用户头像
又赢了?又拉了坨大的
2025-03-19 09:19 · 日本
回复
谢谢
2025-03-19 19:31 · 北京
回复
用户头像
1
2025-03-19 08:33 · 广东
回复
没有更多了

电脑硬件都有哪些?

InfoQ IT百科

Rust异步框架的性能评估

非凸科技

tokio Zenoh 异步框架 async_std smol

如何彻底删除电脑上的文件?

InfoQ IT百科

2022年,网传苹果即将发布的新机型iPhone 14 Pro和iPhone 14 Pro Max将会是全新屏幕造型,不再是刘海屏,你对新屏幕造型的iPhone 14期待吗?

InfoQ IT百科

你知道你的手机上有多少传感器吗?

InfoQ IT百科

对线郭老师职业发展,记下自己的心得体会

北洋

面试 职业规划 程序猿 4月月更

开源大数据OLAP引擎最佳实践

五分钟学大数据

数仓 4月月更

科创人·派拉软件CEO谭翔:零信任本质是数字安全,To B也要深研用户心智

科创人

电脑上怎么快速切换显示不同的软件界面

InfoQ IT百科

目前国产电脑硬件的现状是怎样的?

InfoQ IT百科

我国有哪些完全自研的电脑硬件?

InfoQ IT百科

悟空的私藏「架构』书籍推荐

悟空聊架构

4月日更 悟空聊架构

这个API Hub厉害了,收录了钉钉企业微信等开放Api,还能直接调试 !

Liam

前端 Postman API OpenAPI 开放api

CrashSight 常规功能&特色功能介绍

WeTest

如何通过云效Codeup完成代码合并 | 云效

阿里云云效

云计算 阿里云 代码管理 Codeup 代码合并

秒云助力中电科32所发布“基于拟态应用集成框架的SaaS云管理平台解决方案”

MIAOYUN

内生安全 拟态应用集成框架 网络空间内生安全大会

APP应该关注哪些数据指标?

InfoQ IT百科

报名开启|QKE 容器引擎托管版暨容器生态发布会!

青云技术社区

敏捷实践 | 提高小组可预测性的敏捷指标

LigaAI

敏捷开发 敏捷度量

2022年,5G芯片会有哪些值得期待的发展趋势?

InfoQ IT百科

为什么智能手机传感器市场一直是索尼占主导

InfoQ IT百科

rm格式的文件怎么打开?

InfoQ IT百科

面向全球市场,PlatoFarm今日登录HUOBI等全球四大平台

西柚子

全网征集!说说你跟宜搭之间的故事吧

一只大光圈

阿里 低代码 数字化 钉钉宜搭 宜搭

面向全球市场,PlatoFarm今日登录HUOBI等全球四大平台

小哈区块

Go 学习笔记——Switch(我不是游戏机)

为自己带盐

Go 学习笔记 4月月更

优麒麟 22.04 LTS 版本正式发布 | UKUI 3.1开启全新体验!

优麒麟

Linux 开源 操作系统 优麒麟 22.04

众妙之门玄之又玄,游戏系统中的伪随机(Pseudo-Randomization)和真随机(True-Randomization)算法实现Python3

刘悦的技术博客

算法 游戏 Python3 算法实践 随机数

坚持做正确的事情

FunTester

设计千万级学生管理系统的考试试卷存储方案

哈喽

「架构实战营」

手机运行内存应该怎么选?

InfoQ IT百科

昇腾,又赢一局_华为_王一鹏_InfoQ精选文章