9 月 13 日,2025 Inclusion・外滩大会「开源嘉年华」正在限量报名中! 了解详情
写点什么

昇腾,又赢一局

  • 2025-03-18
    北京
  • 本文字数:2598 字

    阅读完需:约 9 分钟

昇腾,又赢一局

在 DeepSeek 轰炸 2025 春节之前,昇腾几乎就已经是中国市场最成功的“玩家”之一,而这种成功甚至不是完全通过出货量来定义的——虽然有数据称 2023 年华为海思(含昇腾系列)以 24.8% 的份额位居国内 AI 芯片市场首位,领先第二名至少 10%,但从 2024 年之后,网络上就不再有可参考的具体数据了。


从 InfoQ 近期沟通的多位业内人士的意见来看,业界对昇腾的信心,并没有随着数据图表的消失而变弱,反而越来越强。究其根源,在于昇腾的技术能力。


GPU 的制造有五大部分关键技术:制程工艺、指令集设计、计算单元设计、内存和缓存设计,以及对应的软件栈设计。除了代工由其他公司完成,从指令集到软件栈,华为完成了全栈自研。其中 CANN 软件栈,对标英伟达的 CUDA,综合下来,使得单卡算力逼近英伟达 A100 。


更大的启发在于,DeepSeek 绕过 CUDA 后,实现了惊人的性能提升,比如用 PTX 语言实现的硬件效率,比 Meta 等其他公司高出 10 倍,能够在五天内完成其他模型需十天才能实现的训练。


昇腾全栈自研,想必也有这样的潜能。这是许多人看好昇腾的内在逻辑。


可以说,国内的 AI 算力市场,留给其他玩家的空间并不大,DeepSeek 的爆发,是非常难得的搅局机会。但很可惜,这一次,昇腾似乎又跑在了国产芯片的最前方。

昇腾不喜欢玩虚的


以前人们只知道 DeepSeek,最近大家才知道,有个东西叫做“满血版”的 DeepSeek。


“满血版”,是大家认知中的 DeepSeek:参数规模 671B,支持 200k tokens 超长上下文理解,性能媲美 OpenAI o1。


而对应的是所谓的蒸馏版,如 DeepSeek-R1-Distill-Llama-70B。一些量化技术压缩后的版本,参数量仅为 DeepSeek-R1 的 1%-5%,使用体验也大幅退步。


功能上的阉割相对更加严重,DeepSeek 提供良好体验的前提是,同时勾选深度思考和联网搜索,但在一些厂商工具集成的入口上,又变成了“二选一”:想体验推理能力,就不能联网搜索,效果大打折扣。


这背后的关键在于,部署 DeepSeek-R1 还是相当耗费硬件资源的,比如使用 BF16 权重进行 DeepSeek-R1 的推理,硬件成本至少在 50-170 万之间。



资源有限,但想蹭热点,心态可以理解,不过上线一个“空壳”版本给用户,多少有点敷衍。


对于昇腾而言,这显然不是什么问题——作为 DeepSeek 推理服务的算力供应商,有业内人士透露,昇腾目前是国内唯一一个从预训练、微调、强化学习全流程支持 DeepSeek 的 AI 训练平台。


有接近华为的人士透露,昇腾的技术团队围绕 DeepSeek 做了许多技术上的优化,比如:通信效率。


以 OpenAI 为代表的模型厂商走的是“大专家”路线,专家数量以 16 个为主,单个专家的参数量较大;而 DeepSeek 走的是“小专家”路线,单个专家的参数量较小,但专家数量超过 256 个。更多的专家数量,意味着更高的通信开销,如果通信效率不能得到优化,推理速度就会受到限制。


昇腾通过伪 EP 混合并行算法来优化通信效率。所谓伪 EP 混合并行算法,顾名思义,是对专家并行(Expert Parallel,EP)算法的模拟和简化,可以理解为适用于大规模分布式 AI 模型训练场景的并行计算策略。具体有三种优化方式:


  1. 专家并行(EP):将模型中的不同专家(Expert)分配到不同的计算设备上,每个设备负责处理特定的专家。这种方式可以减少单个设备的计算负担,提高训练效率。

  2. 数据并行(DP):将数据集分割成多个子集,并在不同的设备上同时进行训练。这种方式可以充分利用多个设备的计算能力,加速模型训练。

  3. 张量并行(TP):将模型中的张量(多维数组或矩阵)按照特定维度分割,并分配到不同计算设备上进行并行计算。这种方式可以减少单个设备的内存需求,提高模型的可扩展性。


昇腾借此将 DeepSeek-R1 推理时的通信性能提升了 30%。


此外,昇腾对 DualPipe、跨节点 All2All ,尤其是 DeepSeek 团队提出的强化学习算法 Gpro 也进行了适配,借此使基于昇腾运行 DeepSeek 的性能和效率可以更高。

一个“虚拟联盟”正在结成


事实上,通信优化是适配 DeepSeek 相当关键的技术命题,而这一直都是华为擅长的内容。


比如 2024 年 9 月发布的昇腾超节点技术,通过机柜级大带宽通信设计,将 NPU 节点从单机 8 卡拓展到机柜几十卡以上,中间采用了大量的自研通信协议,如:HCCS(High-Performance Computing and Communication System)、NB2.0、NHR 等。


昇腾官方口径数据称,昇腾超节点技术可以将带宽利用率从不足 40% 提升到了 60% 以上,可实现 2250 节点(等效于 18000 张卡)超大规模无收敛集群组网。


这使得昇腾成为国内少有的具备超大规模集群组建能力的厂商,并直接促成了华为和三大运营商、科大讯飞等企业的合作。


事实上,华为的这种技术优势,以及对 DeepSeek 的深度优化能力,正在成为其撬动行业资源,形成统一阵地的跳板。


春节前,昇腾和硅基流动达成了深度合作。InfoQ 独家消息显示,硅基流动是 DeepSeek-R1 发布后,主动找到昇腾,提议合作的第一家 AI Infra 公司。双方围绕 DeepSeek 的合作进展非常快,以至于集结了昇腾、硅基流动、幻方三方的座谈会,以及基于昇腾的性能调优版本的上线,全部发生于大年初一前。


到了 2 月 12 日,又有消息称,小鹏汽车董事长何小鹏、宇树科技创始人王兴兴、投资人徐新、硅基流动 CEO 袁进辉、面壁智能 CEO 李大海、霸王茶姬张俊杰等前往华为拜访学习,并与任正非进行交流。


至少在公开报道中,这样的闭门会已经很久没发生过了,简直不像是华为的风格。



或许,DeepSeek-R1 的诞生,已经触发了中国 AI 产业发展的一个隐藏的“开关”,围绕华为昇腾结成的“虚拟产业联盟”,正在进一步加深交流和合作。


大量的 DeepSeek 一体机,于近期密集发布,发布厂商包括华鲲振宇、宝德、神州鲲泰、长江计算等,全部基于昇腾产品构建。DeepSeek  一体机,几乎成了产业合作的一个象征和徽记。


另有数据显示,目前各行业已有 80+企业基于昇腾快速适配/上线了 DeepSeek 系列模型,并在对外提供服务,此外还有 20+ 企业在适配测试中,预计未来两周内全部完成上线,总体来说,国内 70% 的企业将基于昇腾向 DeepSeek 靠拢。


相较于进口 GPU 方案,昇腾芯片的本地化服务和团队,对部署 DeepSeek 的效果影响显著。以万卡规模的数据中心为例,MindSpore 工具链的自动并行功能,使分布式训练代码量减少 70%。有某智慧城市项目的实践表明,采用昇腾方案后,AI 推理模块的 TCO(总拥有成本)三年期下降 42%。


这么来看, DeepSeek 取得的成绩,只是一个阶段性的胜利。而作为产业链的上游,昇腾担负的风险却在减少,着实赢了个彻底。

2025-03-18 16:556108
用户头像
王一鹏 InfoQ 总经理

发布了 188 篇内容, 共 136.4 次阅读, 收获喜欢 487 次。

关注

评论 3 条评论

发布
用户头像
又赢了?又拉了坨大的
2025-03-19 09:19 · 日本
回复
谢谢
2025-03-19 19:31 · 北京
回复
用户头像
1
2025-03-19 08:33 · 广东
回复
没有更多了

API安全设计5A原则

阿泽🧸

11月月更 API安全

华为云Astro的前世今生:用7年时间革新低代码开发观念

科技怪授

2022-11-21:第N高的薪水。表结构和数据的sql语句如下。请问sql语句如何写? DROP TABLE IF EXISTS employee; CREATE TABLE employee (

福大大架构师每日一题

数据库 sql 福大大

部署RDS 服务

我叫于豆豆吖.

11月月更

解决数据分析落地难的几点经验

穿过生命散发芬芳

数据分析 11月月更

MACH架构的质量工程指南

俞凡

架构 微服务 云原生

华为云企业交换机ESW,让数据业务无缝迁移上云

爱科技的水月

【C语言】register 关键字

謓泽

11月月更

WSUS 服务

我叫于豆豆吖.

11月月更

redis 集群实现方案与原理

想要飞的猪

redis哨兵集群 redid集群cluster

Alluxio 2.9新版发布 | 重塑架构,支持大规模多租户环境

Alluxio

分布式 新闻 Alluxio 大数据 开源 数据编排

低代码会使初级码农失业吗

秃头也爱科技

真正的按需计费-函数工作流 FunctionGraph实战,5分钟搭建图片压缩应用

秃头也爱科技

SpringBoot之用拦截器避免重复请求

okokabcd

Spring Boot

第一章三层交换应用

初学者

网络 11月月更

第二章STP应用配置

初学者

网络 11月月更

DHCP 服务

我叫于豆豆吖.

11月月更

跨平台桌面应用开发都有哪些主流框架

FinFish

小程序 跨端框架 桌面端开发 跨端应用开发

【Ajax】全面详细了解git的基础操作【万字教学+面试常客】

坚毅的小解同志

git 11月月更

信用卡评测系列——阳光惠生活APP深化服务客户品牌理念,焕新升级7.0版

易观分析

金融 银行 信用卡

前端食堂技术周刊第 60 期:TypeScript 4.9、Ant Design 5.0、用 vanilla-extract 编写高性能的 CSS、Node.js 安全最佳实践

童欧巴

jvm(三)类加载机制、javac编译

想要飞的猪

JVM类加载

分布式监控平台 WGCLOUD v3.4.2 节流 30%,更轻更快

王逅逅

Linux 信创 zabbix Prometheus #运维 性能监测

算法题学习---删除有序链表中重复的元素-II

桑榆

算法题 11月月更

鸿蒙系统ARKUI框架对于分布式计算和请求API的实战研究

恒山其若陋兮

前端 11月月更

数据仓库实战教程

kingcall

数据仓库 数据湖 数据安全 数仓 数仓建模

浅谈中小企业进军新媒体行业为何屡次遭受挫败

石头IT视角

2022年中国电商平台市场洞察

易观分析

电商 报告

【愚公系列】2022年11月 微信小程序-应用生命周期和全局变量

愚公搬代码

11月月更

Java集合与数据类型

kingcall

Java JAVA集合 Java集合框架 java数据类型

Linux 系统启动过程

芯动大师

Linux Linux驱动 11月月更

昇腾,又赢一局_华为_王一鹏_InfoQ精选文章