昇腾管推理、鲲鹏管Agent，Agentic AI 让 CPU 重回舞台中央

DeepSeek-V4 模型首发适配昇腾芯片，被视为中国 AI 生态发展的一个重要节点。

通过芯模协同，DeepSeek 与昇腾实现了昇腾超节点全系列产品对 DeepSeek-V4 系列模型的支持。这意味着，中国大模型产业正在从过去高度依赖海外 GPU 与 CUDA 生态，逐步走向由国产芯片、基础软件、编程框架、算子能力和系统架构共同支撑的新阶段。

在今年的鲲鹏昇腾开发者大会 2026 上，中国计算产业的几个变化变得更加清晰：

第一，中国大模型能力正在接近全球顶级闭源模型水平；

第二，中国模型的 Token 消耗量已进入全球前列；

第三，国产大模型与国产芯片之间的协同，开始从“能跑起来”进入“跑得好、跑得稳、跑得经济”的深水区。

在这一过程中，昇腾与鲲鹏分别承担不同角色：昇腾更偏向智能计算底座，重点解决大模型训练、推理、KV Cache、长上下文、AI 推理吞吐和开发者生态等问题；鲲鹏则承担通用计算底座角色，重点支撑 Agent 编排、工具调用、沙箱执行、记忆检索、安全隔离和企业级 IT 基础设施。

也就是说，昇腾解决的是 AI 算力问题，鲲鹏解决的是 Agentic AI 时代系统运行和工程承载问题。

昇腾超节点：面向 Agentic AI 的 AI 算力新范式

Agentic AI 正在对算力基础设施提出新的要求。

与传统大模型推理不同，Agent 工作负载通常包含多轮规划、工具调用、记忆检索、上下文管理、多 Agent 协同等复杂过程。这类负载会带来超大 KV Cache、超长上下文、低时延响应和碎片化调度需求。传统以单卡、单服务器或普通集群为核心的算力架构，已经很难完全适配这一新型负载。

昇腾超节点的核心思路，是通过芯片架构、互联架构和系统架构的协同创新，让大规模 AI 集群像“一台计算机”一样工作。

在芯片层面，昇腾持续推进架构创新。昇腾芯片将支持 FP8、MXFP8、MXFP4 等低数值精度数据格式，以提升训练效率和推理吞吐；同时通过 SIMD 与 SIMT 双编程模型兼容，在高密度计算与灵活调度之间取得平衡。这一方向也被视为 AI 芯片架构演进的重要趋势。

在互联层面，昇腾采用灵衢互联，实现总线级全连接、无主从、平等互联，使 NPU 与 NPU、NPU 与 CPU 之间可以直接通信。灵衢互联可实现单跳 200ns 通信能力，面向 Agentic AI 中大量碎片化调度场景，减少阻塞和等待。

在系统层面，昇腾超节点采用 Clos 与 Mesh 混合拓扑，强调无损、无阻塞和动态负载均衡，使超节点更接近一个统一计算系统，而不是传统松散集群。

对于超节点架构，华为特别强调了一个判断标准：是否实现全域内存统一编址和内存语义。

在传统集群中，不同节点之间通常需要通过消息传递、路由和数据拷贝完成通信，这会带来额外延迟和资源开销。昇腾超节点希望通过全局单一虚拟地址空间，让 NPU 和 CPU 可以直接以虚拟地址访问任意位置的数据，从而实现无需改代码、无需路由、无需拷贝的 load/store 访问。

这对大模型推理尤其关键。随着上下文长度持续扩大，KV Cache 已经成为推理系统的重要瓶颈。华为认为，统一内存编址可以实现 KV Cache 全局共享，使超长上下文更容易扩展，也让每一个 Token 的生成更高效、更经济。

在内存池化方面，昇腾通过 HBM 与 DDR 分层池化能力，实现“以查代算”和 KV Cache 全局共享。资料显示，在 LLM、推荐、Engram 等场景中，查询时延可降低 3 至 4 倍，训练和推理吞吐相较传统集群提升 3 至 4 倍。

昇腾 950 支持 SIMT，首创 SIMD 与 SIMT 混合编程能力

此外，在最新的 950 代际产品中，昇腾在芯片架构层面加入对 SIMT 的支持，并首创 SIMD 与 SIMT 混合编程能力。

这使开发者可以根据不同计算阶段的特点，灵活选择合适的编程范式。在同一个算子中，规则计算部分可以采用 SIMD，以发挥高吞吐优势；不规则控制部分则可以利用 SIMT 的灵活性，从而实现整体效率与性能的最优。

例如，在 MoE init routing 算子中，规则的连续数据搬运与计算部分可以使用 SIMD 编写，而不规则的离散数据搬出部分则可以采用 SIMT 编写，从而获得更高开发效率和更好的整体性能。这一能力对于大模型时代大量不规则计算、稀疏调度和复杂路由场景具有现实意义。

除了计算算子，昇腾也在提升通信算子编程的易用性。

在大规模训练和推理中，通信常常成为性能瓶颈。为此，昇腾试图打破计算和通信之间的边界，让通信编程像访存读写一样简单。通过 SHMEM 编程接口，昇腾将传统面向通信的编程方式，转变为面向访存读写的方式。在统一编址下，跨设备访问可以像操作本地内存一样直接，只需一行代码即可直达底层。同时，凭借 AIcore 直驱技术，昇腾绕过传统 CPU 调度，使下发时延优化 30 倍。

昇腾还推出了通信与计算融合的 CATLASS 模板库，屏蔽复杂拓扑差异，帮助开发者快速实现计算与通信深度并行开发。以常见融合算子为例，相关能力可使开发周期缩短 50%，性能提升 30%。

开发者易用性升级：从“能用”走向“好用”

除了底层硬件和系统架构，昇腾也在围绕开发者易用性进行系统性升级。

过去两年，昇腾投入大量资源优化开发体验，重点回应开发者在底层能力开放、编程方式友好度、主流社区兼容、文档资料完备性等方面的诉求。围绕这些反馈，昇腾主要从三个方向推进易用性提升：CANN 开源开放与分层解耦、深度支持第三方主流开源技术生态，以及 Mind 系列软件架构持续演进升级。

作为昇腾软件底座和生态核心锚点，CANN 是昇腾提升易用性的关键。昇腾已在去年底完成 CANN 分层解耦开源。通过增强对第三方生态的支持，CANN 开放了运行时、算子编译等不同层级接口，支持算子库、通信库等组件独立升级。目前，昇腾已开源 50 多个源码仓，使开发者在生态接入、分层调用、组件升级和源码创新等方面拥有更高灵活性。

这一变化意味着，开发者不仅可以基于昇腾平台做应用开发，也可以更深入地参与底层能力优化，围绕算子、通信、编译和运行时进行性能调优。

在算子编程方面，开发者最关注的是开发效率和运行性能。不同类型的开发者，对编程方式也有不同需求。

对于追求极致性能的算子开发工程师，昇腾提供 AscendC、CATLASS 模板库等编程方式，支持开发者对计算、访存、流水等关键环节进行细粒度控制，充分释放芯片性能。同时，昇腾也将高性能能力沉淀为可复用模板，以提升开发效率。

对于更注重快速创新和算法尝试的 AI 算法工程师，昇腾支持 TileLang、Triton 等主流 Tile 编程生态，使开发者能够以更接近算法表达的方式描述分块计算和数据流。此外，昇腾还推出 PyPTO，提供面向 Tensor 的编程能力，帮助开发者更高效地完成算法创新。

随着 Python 成为 AI 开发的主流语言，昇腾也在全面拥抱 Python 编程生态，进一步降低开发门槛、提升开发效率。其中，PyAsc 基于 AscendC 增加 Python 编程接口，使开发者能够以更友好的方式表达底层并行和访存能力。昇腾还新增了基于 Python 的 CATLASS 模板库能力，将复杂的底层指令序列沉淀为更易用的 Python 模板库。

PyPTO 则从设计之初就支持 Python，提供面向 Tensor 和 Tile 的编程能力。它可以将高层次 Tensor 计算图转换为并行 Tile 计算，并通过 MPMD 调度获得高性能计算能力。

CPU 重回舞台中央，操作系统迎来新机会

如果说昇腾超节点解决的是 AI 算力底座问题，那么鲲鹏和操作系统要面对的，则是 Agentic AI 带来的系统级挑战。

但同时，Agentic AI 对操作系统和 CPU 软件栈团队来说，是一次重大的技术机会。核心原因在于，CPU 正在成为 AI 集群容量规划中的独立约束。

华为胡欣蔚指出，当前 CPU 在 AI 集群中的地位正在发生显著变化。以行业调研为例，在传统大模型业务中，CPU 与 GPU 的算力规划比例正在调整。过去，CPU 在 AI 集群中的规划占比可能只有 10%左右；现在，这一比例已经提升到 40%以上。业内甚至有观点认为，未来 CPU 与 GPU/NPU 在 AIGC 系统中的配比可能达到 1:1，甚至更高。

这一变化来自 Agentic AI 工作负载本身的复杂性。Agent 在执行复杂任务时，往往会产生大量异步分支、常驻控制流、工具调用、回调、重试和状态管理。这些任务天然适合 CPU 处理。任务越复杂、并发越高，CPU 算力需求就越明显。

在一些 Agent 场景中，工具调用时延占比可达到 90%，吞吐瓶颈中 CPU 相关部分占比可超过 50%；在高并发场景下，CPU 动态能耗也可能达到整个系统的 40%以上。

因此，随着 Agentic AI 演进，系统热点正在重新分布：CPU 正从过去的舞台边缘，重新走向舞台中央。

具体来看，在早期 Prompt 工程阶段，负载重心主要集中在 NPU/GPU 上；进入 Context 工程阶段后，系统从单轮对话走向多轮对话，RAG、文档预处理、记忆系统、工具输入输出格式化等辅助能力开始变得重要。这些能力需要 CPU、内存、I/O 与 GPU/NPU 协同完成，AI 负载开始从加速器扩散到整个系统。

到了 Harness 工程阶段，工具调用、结果观察验证、基于反馈的 refine、任务分支和执行编排成为核心。此时，CPU 与 NPU/GPU 的关系发生变化：过去更多是 CPU 为 NPU 服务，负责前期数据准备；而在 Harness 阶段，CPU 开始决定 NPU/GPU 该做什么，NPU/GPU 更像是由 CPU 调度的 worker。

胡欣蔚表示，这一变化带来了新的瓶颈，包括吞吐、时延、同步、动态控制流、分支依赖、回调处理和调试复杂度。也正因此，越来越多性能瓶颈开始从 NPU/GPU 逐步转向 CPU 和操作系统。

CPU 侧内存与存储，正在成为 Agent 的记忆层

除了计算调度，CPU 侧的内存和存储也正在成为 Agent 的记忆层。

对于长期运行的 Agent 来说，上下文窗口往往会持续膨胀，并长期占据模型支持上下文窗口的较大比例。当前很多 Agent 的真实上下文可能维持在 50K 到 70K token 之间，未来百万级上下文也可能逐步成为标配。

这会带来巨大的 KV Cache 压力。以 70B 模型、128K 上下文简单估算，单个用户的 KV Cache 可能达到 10GB 至 40GB。只要六个用户，就可能耗尽 64GB 内存，更不用说系统还需要额外空间承载模型参数和其他运行数据。

因此，将所有推理过程和上下文状态都放在 NPU/GPU 显存中，已经不现实，也不经济。

胡欣蔚表示，更合理的做法，是将 HBM、DDR、SSD 进行协同：最热数据放在 NPU/GPU 侧，具备复用机会的 prefetch cache、记忆结构或类似 Engram 的数据放在 host 侧 DDR，更冷的数据则放入 SSD。

通过 CPU 管理这些多层数据，DDR、SSD 与 HBM 可以形成统一的 Agent 记忆体系，支撑更长上下文、更大规模并发和更经济的推理系统。

异构融合 OS：从资源池化走向 Agent Infra

华为几年前就提出了异构融合系统路线，认为在 AI 时代，CPU 与 NPU/GPU 需要从系统软件和操作系统层面实现深度协同。

基于 openEuler 超节点的异构融合 OS，华为已经在池化设备管理、异构融合核心子系统和系统高阶服务等方面进行适配。胡欣蔚表示，这些能力在今天看来，恰好契合了 Agentic AI 的负载需求。

例如，系统可以通过主机自适应隔离和硬件亲和，解决 Host Bound 场景下的性能问题，提升推理吞吐；可以通过灵衢系统上的 remote fork 支持全内核快照，实现状态回溯与跳转，提升沙箱启动性能；也可以通过内存借用、池化共享等技术，实现超节点内确定性的无序列化直访，加速 KV Cache 访问时延。

换句话说，华为过去面向异构融合的技术布局，正在成为 Agentic AI 的系统底座。

胡欣蔚表示，面向 Agentic AI，操作系统不只是做渐进式演进，可能还需要更激进的范式变化：过去，操作系统主要管理硬件资源和并行程序；到了 Agent 时代，操作系统的任务可能从单纯资源管理，转向调度智能体完成业务目标。这意味着，智能体或许需要一种类似进程、线程之外的新抽象，可以称为“思程”。

过去的应用对应进程，进程包含线程，线程调用 CPU、内存和存储资源；而在 Agent 时代，智能体可能对应一系列“思程”，思程调用不同模型、Memory、工具，甚至调用其他 Agent。如果底层能力可以被封装成可枚举、可监控、可回滚、可确认的标准接口，那么 Agentic Scaling 就可能在新的系统架构中自然实现。

同时，操作系统也需要面向多 Agent 的启停、编排、调度和全生命周期管理建立新能力。这意味着，未来操作系统可能不只是管理应用，而是管理智能体任务、模型调用、记忆系统、工具链和多 Agent 协作。

鲲鹏面向 Agent 的三大系统能力：沙箱、记忆与安全

在 Agentic AI 场景中，沙箱是最基础的系统能力之一。

不同 Agent 对沙箱的需求并不相同。类似 OpenClaw 的个人助手类 Agent，往往是长时间运行、需要高度灵活性的系统，更适合运行在虚拟机中，拥有完整环境。而在强化学习或 coding 任务中，沙箱更强调轻量化、快速启动、快速重置和短任务执行。因此，华为认为，操作系统不应只选择某一种沙箱技术，而应通过 Sandbox SDK 统一不同沙箱方案，为不同场景提供灵活选择。

更进一步，Agentic AI 还会带来新的系统需求。胡欣蔚提出，未来可能会出现一种与 Test-time Scaling 对应的 Agentic Scaling。Test-time Scaling 是模型在内部反复思考和迭代；而 Agentic Scaling 则是模型通过不断尝试不同执行路径来解决问题。

这就要求基础设施能够让 AI “大胆试”，同时又不会失控。系统需要支持快速快照、快速回滚、状态隔离和错误范围限制，避免 Agent 的错误扩散到全局。

华为将这一方向称为 Conch，希望面向 Agentic Scaling 提供新的沙箱基础设施。其目标是通过超节点能力减少不同沙箱之间的重复资源，提高部署密度、降低运行成本，并为 Agent 的多路径试错提供可控、安全、可回滚的执行环境。

在 Agent 系统中，记忆能力同样重要。

目前，行业中已经出现大量开源或商业化的 Agent 记忆系统。很多方案最初通过数据库、向量检索或 RAG 实现记忆，但近几个月的最佳实践显示，越来越多系统开始将信息以文本形式存储在文件系统中，再通过高保真访问重新组织成记忆。

胡欣蔚认为，这说明 Agent 记忆与操作系统、文件系统、数据存储系统天然存在协同机会。操作系统原生记忆可以帮助解决多个问题：一是上下文过载带来的 token 开销；二是长任务中关键信息丢失导致的意图漂移；三是 NPU/GPU 与 CPU 切换过程中资源管理粗放造成的浪费。

他将其类比为 Windows 曾经将图形界面从外部能力整合进操作系统内部。记忆能力如果从外挂式能力变成操作系统原生能力，可能带来更明显的系统级质变。

安全则是 Agent 进入企业场景的前提。

今年年初 OpenClaw 爆火时，很多用户排队安装，但也有人很快发现 Agent 行为不可控、不可知、不可恢复，最终不得不求助他人删除相关环境。这暴露出当前智能体系统在安全执行方面的不足。

对于基础软件而言，Agent 的可控、可知、可恢复，是其进入企业市场的基本前提。智能体需要一个可信执行环境，并且这个可信链条最终必须落在操作系统和硬件可信根上。

鲲鹏超节点：Agent 系统智能底座

华为的目标是将鲲鹏超节点打造成面向 Agent 的系统智能底座，让运行在鲲鹏上的 Agent 在执行效率、系统能力和企业级可用性上迈上新台阶，进而成为 Agentic AI 时代 IT 基础设施的最佳选择，

在硬件层面，鲲鹏 CPU 的双线程灵犀核可以提供高效并发处理能力；CCA、TrustZone 等能力可以提供安全可信基础；灵衢互联的大带宽、低时延能力可以支撑大容量和高吞吐；统一内存编址则可以推动 HBM、DDR、SSD 等不同内存和存储介质实现异构融合。

在系统层面，异构融合池化系统可以向上层应用和合作伙伴提供全局资源视图、兼容接口和系统接口。面向 Agentic AI，这些能力将进一步演化为 Agent Infra 的组成部分，包括资产管理、沙箱、操作系统原生记忆和安全保障。

从上可以看出，AI 基础设施未来拼的是芯片、互联、内存、操作系统和开发生态等的整体协同能。昇腾和鲲鹏的分工，代表了华为对 Agentic AI 基础设施的理解，而两者在用系统级架构承接 Agentic AI 复杂负载中，正在承担关键角色。

创作场景

昇腾管推理、鲲鹏管 Agent，Agentic AI 让 CPU 重回舞台中央