DeepSeek-V4 模型首发适配昇腾芯片,被视为中国 AI 生态发展的一个重要节点。
通过芯模协同,DeepSeek 与昇腾实现了昇腾超节点全系列产品对 DeepSeek-V4 系列模型的支持。这意味着,中国大模型产业正在从过去高度依赖海外 GPU 与 CUDA 生态,逐步走向由国产芯片、基础软件、编程框架、算子能力和系统架构共同支撑的新阶段。
在今年的鲲鹏昇腾开发者大会 2026 上,中国计算产业的几个变化变得更加清晰:
第一,中国大模型能力正在接近全球顶级闭源模型水平;
第二,中国模型的 Token 消耗量已进入全球前列;
第三,国产大模型与国产芯片之间的协同,开始从“能跑起来”进入“跑得好、跑得稳、跑得经济”的深水区。
在这一过程中,昇腾与鲲鹏分别承担不同角色:昇腾更偏向智能计算底座,重点解决大模型训练、推理、KV Cache、长上下文、AI 推理吞吐和开发者生态等问题;鲲鹏则承担通用计算底座角色,重点支撑 Agent 编排、工具调用、沙箱执行、记忆检索、安全隔离和企业级 IT 基础设施。
也就是说,昇腾解决的是 AI 算力问题,鲲鹏解决的是 Agentic AI 时代系统运行和工程承载问题。
昇腾超节点:面向 Agentic AI 的 AI 算力新范式
Agentic AI 正在对算力基础设施提出新的要求。
与传统大模型推理不同,Agent 工作负载通常包含多轮规划、工具调用、记忆检索、上下文管理、多 Agent 协同等复杂过程。这类负载会带来超大 KV Cache、超长上下文、低时延响应和碎片化调度需求。传统以单卡、单服务器或普通集群为核心的算力架构,已经很难完全适配这一新型负载。
昇腾超节点的核心思路,是通过芯片架构、互联架构和系统架构的协同创新,让大规模 AI 集群像“一台计算机”一样工作。
在芯片层面,昇腾持续推进架构创新。昇腾芯片将支持 FP8、MXFP8、MXFP4 等低数值精度数据格式,以提升训练效率和推理吞吐;同时通过 SIMD 与 SIMT 双编程模型兼容,在高密度计算与灵活调度之间取得平衡。这一方向也被视为 AI 芯片架构演进的重要趋势。
在互联层面,昇腾采用灵衢互联,实现总线级全连接、无主从、平等互联,使 NPU 与 NPU、NPU 与 CPU 之间可以直接通信。灵衢互联可实现单跳 200ns 通信能力,面向 Agentic AI 中大量碎片化调度场景,减少阻塞和等待。
在系统层面,昇腾超节点采用 Clos 与 Mesh 混合拓扑,强调无损、无阻塞和动态负载均衡,使超节点更接近一个统一计算系统,而不是传统松散集群。
对于超节点架构,华为特别强调了一个判断标准:是否实现全域内存统一编址和内存语义。
在传统集群中,不同节点之间通常需要通过消息传递、路由和数据拷贝完成通信,这会带来额外延迟和资源开销。昇腾超节点希望通过全局单一虚拟地址空间,让 NPU 和 CPU 可以直接以虚拟地址访问任意位置的数据,从而实现无需改代码、无需路由、无需拷贝的 load/store 访问。
这对大模型推理尤其关键。随着上下文长度持续扩大,KV Cache 已经成为推理系统的重要瓶颈。华为认为,统一内存编址可以实现 KV Cache 全局共享,使超长上下文更容易扩展,也让每一个 Token 的生成更高效、更经济。
在内存池化方面,昇腾通过 HBM 与 DDR 分层池化能力,实现“以查代算”和 KV Cache 全局共享。资料显示,在 LLM、推荐、Engram 等场景中,查询时延可降低 3 至 4 倍,训练和推理吞吐相较传统集群提升 3 至 4 倍。
昇腾 950 支持 SIMT,首创 SIMD 与 SIMT 混合编程能力
此外,在最新的 950 代际产品中,昇腾在芯片架构层面加入对 SIMT 的支持,并首创 SIMD 与 SIMT 混合编程能力。
这使开发者可以根据不同计算阶段的特点,灵活选择合适的编程范式。在同一个算子中,规则计算部分可以采用 SIMD,以发挥高吞吐优势;不规则控制部分则可以利用 SIMT 的灵活性,从而实现整体效率与性能的最优。
例如,在 MoE init routing 算子中,规则的连续数据搬运与计算部分可以使用 SIMD 编写,而不规则的离散数据搬出部分则可以采用 SIMT 编写,从而获得更高开发效率和更好的整体性能。这一能力对于大模型时代大量不规则计算、稀疏调度和复杂路由场景具有现实意义。
除了计算算子,昇腾也在提升通信算子编程的易用性。
在大规模训练和推理中,通信常常成为性能瓶颈。为此,昇腾试图打破计算和通信之间的边界,让通信编程像访存读写一样简单。通过 SHMEM 编程接口,昇腾将传统面向通信的编程方式,转变为面向访存读写的方式。在统一编址下,跨设备访问可以像操作本地内存一样直接,只需一行代码即可直达底层。同时,凭借 AIcore 直驱技术,昇腾绕过传统 CPU 调度,使下发时延优化 30 倍。
昇腾还推出了通信与计算融合的 CATLASS 模板库,屏蔽复杂拓扑差异,帮助开发者快速实现计算与通信深度并行开发。以常见融合算子为例,相关能力可使开发周期缩短 50%,性能提升 30%。
开发者易用性升级:从“能用”走向“好用”
除了底层硬件和系统架构,昇腾也在围绕开发者易用性进行系统性升级。
过去两年,昇腾投入大量资源优化开发体验,重点回应开发者在底层能力开放、编程方式友好度、主流社区兼容、文档资料完备性等方面的诉求。围绕这些反馈,昇腾主要从三个方向推进易用性提升:CANN 开源开放与分层解耦、深度支持第三方主流开源技术生态,以及 Mind 系列软件架构持续演进升级。
作为昇腾软件底座和生态核心锚点,CANN 是昇腾提升易用性的关键。昇腾已在去年底完成 CANN 分层解耦开源。通过增强对第三方生态的支持,CANN 开放了运行时、算子编译等不同层级接口,支持算子库、通信库等组件独立升级。目前,昇腾已开源 50 多个源码仓,使开发者在生态接入、分层调用、组件升级和源码创新等方面拥有更高灵活性。
这一变化意味着,开发者不仅可以基于昇腾平台做应用开发,也可以更深入地参与底层能力优化,围绕算子、通信、编译和运行时进行性能调优。
在算子编程方面,开发者最关注的是开发效率和运行性能。不同类型的开发者,对编程方式也有不同需求。
对于追求极致性能的算子开发工程师,昇腾提供 AscendC、CATLASS 模板库等编程方式,支持开发者对计算、访存、流水等关键环节进行细粒度控制,充分释放芯片性能。同时,昇腾也将高性能能力沉淀为可复用模板,以提升开发效率。
对于更注重快速创新和算法尝试的 AI 算法工程师,昇腾支持 TileLang、Triton 等主流 Tile 编程生态,使开发者能够以更接近算法表达的方式描述分块计算和数据流。此外,昇腾还推出 PyPTO,提供面向 Tensor 的编程能力,帮助开发者更高效地完成算法创新。
随着 Python 成为 AI 开发的主流语言,昇腾也在全面拥抱 Python 编程生态,进一步降低开发门槛、提升开发效率。其中,PyAsc 基于 AscendC 增加 Python 编程接口,使开发者能够以更友好的方式表达底层并行和访存能力。昇腾还新增了基于 Python 的 CATLASS 模板库能力,将复杂的底层指令序列沉淀为更易用的 Python 模板库。
PyPTO 则从设计之初就支持 Python,提供面向 Tensor 和 Tile 的编程能力。它可以将高层次 Tensor 计算图转换为并行 Tile 计算,并通过 MPMD 调度获得高性能计算能力。
CPU 重回舞台中央,操作系统迎来新机会
如果说昇腾超节点解决的是 AI 算力底座问题,那么鲲鹏和操作系统要面对的,则是 Agentic AI 带来的系统级挑战。
但同时,Agentic AI 对操作系统和 CPU 软件栈团队来说,是一次重大的技术机会。核心原因在于,CPU 正在成为 AI 集群容量规划中的独立约束。
华为胡欣蔚指出,当前 CPU 在 AI 集群中的地位正在发生显著变化。以行业调研为例,在传统大模型业务中,CPU 与 GPU 的算力规划比例正在调整。过去,CPU 在 AI 集群中的规划占比可能只有 10%左右;现在,这一比例已经提升到 40%以上。业内甚至有观点认为,未来 CPU 与 GPU/NPU 在 AIGC 系统中的配比可能达到 1:1,甚至更高。
这一变化来自 Agentic AI 工作负载本身的复杂性。Agent 在执行复杂任务时,往往会产生大量异步分支、常驻控制流、工具调用、回调、重试和状态管理。这些任务天然适合 CPU 处理。任务越复杂、并发越高,CPU 算力需求就越明显。
在一些 Agent 场景中,工具调用时延占比可达到 90%,吞吐瓶颈中 CPU 相关部分占比可超过 50%;在高并发场景下,CPU 动态能耗也可能达到整个系统的 40%以上。
因此,随着 Agentic AI 演进,系统热点正在重新分布:CPU 正从过去的舞台边缘,重新走向舞台中央。
具体来看,在早期 Prompt 工程阶段,负载重心主要集中在 NPU/GPU 上;进入 Context 工程阶段后,系统从单轮对话走向多轮对话,RAG、文档预处理、记忆系统、工具输入输出格式化等辅助能力开始变得重要。这些能力需要 CPU、内存、I/O 与 GPU/NPU 协同完成,AI 负载开始从加速器扩散到整个系统。
到了 Harness 工程阶段,工具调用、结果观察验证、基于反馈的 refine、任务分支和执行编排成为核心。此时,CPU 与 NPU/GPU 的关系发生变化:过去更多是 CPU 为 NPU 服务,负责前期数据准备;而在 Harness 阶段,CPU 开始决定 NPU/GPU 该做什么,NPU/GPU 更像是由 CPU 调度的 worker。
胡欣蔚表示,这一变化带来了新的瓶颈,包括吞吐、时延、同步、动态控制流、分支依赖、回调处理和调试复杂度。也正因此,越来越多性能瓶颈开始从 NPU/GPU 逐步转向 CPU 和操作系统。
CPU 侧内存与存储,正在成为 Agent 的记忆层
除了计算调度,CPU 侧的内存和存储也正在成为 Agent 的记忆层。
对于长期运行的 Agent 来说,上下文窗口往往会持续膨胀,并长期占据模型支持上下文窗口的较大比例。当前很多 Agent 的真实上下文可能维持在 50K 到 70K token 之间,未来百万级上下文也可能逐步成为标配。
这会带来巨大的 KV Cache 压力。以 70B 模型、128K 上下文简单估算,单个用户的 KV Cache 可能达到 10GB 至 40GB。只要六个用户,就可能耗尽 64GB 内存,更不用说系统还需要额外空间承载模型参数和其他运行数据。
因此,将所有推理过程和上下文状态都放在 NPU/GPU 显存中,已经不现实,也不经济。
胡欣蔚表示,更合理的做法,是将 HBM、DDR、SSD 进行协同:最热数据放在 NPU/GPU 侧,具备复用机会的 prefetch cache、记忆结构或类似 Engram 的数据放在 host 侧 DDR,更冷的数据则放入 SSD。
通过 CPU 管理这些多层数据,DDR、SSD 与 HBM 可以形成统一的 Agent 记忆体系,支撑更长上下文、更大规模并发和更经济的推理系统。
异构融合 OS:从资源池化走向 Agent Infra
华为几年前就提出了异构融合系统路线,认为在 AI 时代,CPU 与 NPU/GPU 需要从系统软件和操作系统层面实现深度协同。
基于 openEuler 超节点的异构融合 OS,华为已经在池化设备管理、异构融合核心子系统和系统高阶服务等方面进行适配。胡欣蔚表示,这些能力在今天看来,恰好契合了 Agentic AI 的负载需求。
例如,系统可以通过主机自适应隔离和硬件亲和,解决 Host Bound 场景下的性能问题,提升推理吞吐;可以通过灵衢系统上的 remote fork 支持全内核快照,实现状态回溯与跳转,提升沙箱启动性能;也可以通过内存借用、池化共享等技术,实现超节点内确定性的无序列化直访,加速 KV Cache 访问时延。
换句话说,华为过去面向异构融合的技术布局,正在成为 Agentic AI 的系统底座。
胡欣蔚表示,面向 Agentic AI,操作系统不只是做渐进式演进,可能还需要更激进的范式变化:过去,操作系统主要管理硬件资源和并行程序;到了 Agent 时代,操作系统的任务可能从单纯资源管理,转向调度智能体完成业务目标。这意味着,智能体或许需要一种类似进程、线程之外的新抽象,可以称为“思程”。
过去的应用对应进程,进程包含线程,线程调用 CPU、内存和存储资源;而在 Agent 时代,智能体可能对应一系列“思程”,思程调用不同模型、Memory、工具,甚至调用其他 Agent。如果底层能力可以被封装成可枚举、可监控、可回滚、可确认的标准接口,那么 Agentic Scaling 就可能在新的系统架构中自然实现。
同时,操作系统也需要面向多 Agent 的启停、编排、调度和全生命周期管理建立新能力。这意味着,未来操作系统可能不只是管理应用,而是管理智能体任务、模型调用、记忆系统、工具链和多 Agent 协作。
鲲鹏面向 Agent 的三大系统能力:沙箱、记忆与安全
在 Agentic AI 场景中,沙箱是最基础的系统能力之一。
不同 Agent 对沙箱的需求并不相同。类似 OpenClaw 的个人助手类 Agent,往往是长时间运行、需要高度灵活性的系统,更适合运行在虚拟机中,拥有完整环境。而在强化学习或 coding 任务中,沙箱更强调轻量化、快速启动、快速重置和短任务执行。因此,华为认为,操作系统不应只选择某一种沙箱技术,而应通过 Sandbox SDK 统一不同沙箱方案,为不同场景提供灵活选择。
更进一步,Agentic AI 还会带来新的系统需求。胡欣蔚提出,未来可能会出现一种与 Test-time Scaling 对应的 Agentic Scaling。Test-time Scaling 是模型在内部反复思考和迭代;而 Agentic Scaling 则是模型通过不断尝试不同执行路径来解决问题。
这就要求基础设施能够让 AI “大胆试”,同时又不会失控。系统需要支持快速快照、快速回滚、状态隔离和错误范围限制,避免 Agent 的错误扩散到全局。
华为将这一方向称为 Conch,希望面向 Agentic Scaling 提供新的沙箱基础设施。其目标是通过超节点能力减少不同沙箱之间的重复资源,提高部署密度、降低运行成本,并为 Agent 的多路径试错提供可控、安全、可回滚的执行环境。
在 Agent 系统中,记忆能力同样重要。
目前,行业中已经出现大量开源或商业化的 Agent 记忆系统。很多方案最初通过数据库、向量检索或 RAG 实现记忆,但近几个月的最佳实践显示,越来越多系统开始将信息以文本形式存储在文件系统中,再通过高保真访问重新组织成记忆。
胡欣蔚认为,这说明 Agent 记忆与操作系统、文件系统、数据存储系统天然存在协同机会。操作系统原生记忆可以帮助解决多个问题:一是上下文过载带来的 token 开销;二是长任务中关键信息丢失导致的意图漂移;三是 NPU/GPU 与 CPU 切换过程中资源管理粗放造成的浪费。
他将其类比为 Windows 曾经将图形界面从外部能力整合进操作系统内部。记忆能力如果从外挂式能力变成操作系统原生能力,可能带来更明显的系统级质变。
安全则是 Agent 进入企业场景的前提。
今年年初 OpenClaw 爆火时,很多用户排队安装,但也有人很快发现 Agent 行为不可控、不可知、不可恢复,最终不得不求助他人删除相关环境。这暴露出当前智能体系统在安全执行方面的不足。
对于基础软件而言,Agent 的可控、可知、可恢复,是其进入企业市场的基本前提。智能体需要一个可信执行环境,并且这个可信链条最终必须落在操作系统和硬件可信根上。
鲲鹏超节点:Agent 系统智能底座
华为的目标是将鲲鹏超节点打造成面向 Agent 的系统智能底座,让运行在鲲鹏上的 Agent 在执行效率、系统能力和企业级可用性上迈上新台阶,进而成为 Agentic AI 时代 IT 基础设施的最佳选择,
在硬件层面,鲲鹏 CPU 的双线程灵犀核可以提供高效并发处理能力;CCA、TrustZone 等能力可以提供安全可信基础;灵衢互联的大带宽、低时延能力可以支撑大容量和高吞吐;统一内存编址则可以推动 HBM、DDR、SSD 等不同内存和存储介质实现异构融合。
在系统层面,异构融合池化系统可以向上层应用和合作伙伴提供全局资源视图、兼容接口和系统接口。面向 Agentic AI,这些能力将进一步演化为 Agent Infra 的组成部分,包括资产管理、沙箱、操作系统原生记忆和安全保障。
从上可以看出,AI 基础设施未来拼的是芯片、互联、内存、操作系统和开发生态等的整体协同能。昇腾和鲲鹏的分工,代表了华为对 Agentic AI 基础设施的理解,而两者在用系统级架构承接 Agentic AI 复杂负载中,正在承担关键角色。





