2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

从 1920TPS 到 2400TPS,华为云 Tokens 服务全面接入 384 超节点

  • 2025-08-28
    北京
  • 本文字数:1855 字

    阅读完需:约 6 分钟

从1920TPS到2400TPS,华为云Tokens服务全面接入384超节点

2025 年 8 月 27 日,在第四届 828 B2B 企业节开幕式上,华为云宣布其 Tokens 服务全面接入 CloudMatrix384 超节点,通过 xDeepServe 架构创新,单芯片最高可实现 2400TPS、50msTPOT 的超高吞吐、低时延的性能。

发挥“大杂烩”优势,以系统能力打造先进算力


过去 18 个月,中国 AI 算力需求呈现指数级增长。数据显示,2024 年初中国日均 Token 的消耗量为 1000 亿,截至今年 6 月底,日均 Token 消耗量已突破 30 万亿,1 年半的时间增长了 300 多倍,反映了我国人工智能应用规模快速增长,也对算力基础设施的需求提出了更大的挑战。


在以往按卡时计费的基础上,今年 3 月,华为云正式推出了基于 MaaS 的 Tokens 服务。针对不同应用、不同场景的性能和时延要求,还提供了在线版、进线版、离线版乃至尊享版等多种服务规格,为大模型、Agent 智能体等 AI 工具提供了更为灵活、便捷、低成本的先进算力。


而这一次,华为云的 Tokens 服务正式接入 CloudMatrix384,并通过 384 原生的 xDeepServe 框架再次实现了吞吐量的突破,从年初的 1920TPS 提升至 2400TPS,TPOT 仅为 50ms。



大算力的构建不是单点突破,而是一个从硬件到软件、从算子到存储、从推理框架到超节点的全栈创新,充分依托了华为的“大杂烩”能力。


首先,CloudMatrix384 超节点以全新的计算架构创新,突破性能瓶颈,构筑稳固澎湃的算力根基; CANN 昇腾硬件使能,优化算子与高效通信策略,让云端的算力能够以最高效的方式被调用和组合;EMS 弹性内存存储打破 AI 内存墙,突破性地实现“以存强算”, 彻底释放了每一颗芯片的算力;xDeepServe 分布式推理框架则以极致分离架构 Transfomerless 让超节点释放出更高效算力。

“拆掉”Transformer,xDeepServe 全面激发算力潜能


作为 CloudMatrix384 超节点的原生服务,xDeepServe 以 Transformerless 的极致分离架构,把 MoE 大模型拆成可独立伸缩的 Attention、FFN、Expert 三个微模块,相当于在一台 CloudMatrix384 上把“大模型”拆成“积木”,并分派到不同的 NPU 上同步处理任务。之后,再用基于内存语义的微秒级 XCCL 通信库与 FlowServe 自研推理引擎把它们重新拼成一个超高吞吐的 LLM 服务平台,即 Tokens 的“超高速流水线”。通过 xDeepServe 不断调优,最终实现了从非超节点单卡吞吐 600tokens/s 至超节点单卡吞吐 2400tokens/s 的提升。


作为硬件加速计算的中间层,CANN 包含多个算子库和和 XCCL 这种高性能通信库等组件,共同支撑 AI 模型的高效运行。其中,XCCL 作为专为超节点上的大语言模型(LLM)服务而量身打造的高性能通信库,能够充分发挥 CloudMatrix384 扩展后的 UB 互联架构(UB fabric)的全部潜力,为 Transformerless 的全面分离奠定了带宽与时延双重硬底座。


而作为被重构的“去中心”式分布式引擎,FlowServe 把 CloudMatrix384 切成完全自治的 DP 小组,每个小组自带 Tokenizer、执行器、RTC 缓存与网络栈,自给自足,能做到千卡并发也不“拥堵”。


目前,xDeepServe 已实现 MA 分离,而下一步,将把 Attention、MoE、Decode 全部改成自由流动的数据流,并把同样的拼图方法复制到多台超节点,让推理吞吐像铺轨一样线性延伸,最终或将视线吞吐量的更大突破,让每块 NPU 都高效运作。

聚焦主流大模型,不断提升模型性能


目前,华为云 MaaS 服务已支持 DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan 等主流大模型及 versatile、Dify、扣子等主流 Agent 平台。


华为云积累了大量模型性能优化、效果调优的技术和能力,从而实现“源于开源,高于开源”,让更多大模型可以在昇腾云上跑得更快更好。以文生图大模型来说,在轻微损失画质的情况下,通过 Int8 量化、旋转位置编码融合算子等方式,在在华为云 MaaS 平台实现了 2 倍于业界主流平台的出图速度,最大尺寸支持 2K×2K。而在文生视频大模型上,不仅通过量化方式来提速,还通过通算并行等方式,降低延迟与显存占用,大幅提升视频生成速度,相较于友商实现了 3.5 倍的性能提升。华为云 Tokens 服务在性能、模型适配、效果调优方面的基础,也让更多企业能够快速开发和构建 AI Agent。


而在应用层,华为云已与超过 100 家伙伴携手深入行业场景,共建丰富的 Agent,在调研分析、内容创作、智慧办公、智能运维等领域解决产业难题,让企业更便捷地拥抱 AI 创新,加速智能化。


如基于 MaaS 平台推出的今日人才数智员工解决方案,集成了先进的自然语言处理、机器学习和深度学习技术,能实现与用户的智能交互和任务处理,显著提升服务效率与客户满意度;而北京方寸无忧科技开发的无忧智慧公文解决方案可以提升公文处理效能,实现政企办公智能化转型。


以 Token 为动力的智能社会已经到来,而华为云将以系统级创新能力和全新的 Tokens 服务构筑先进算力,助力各行各业加速落地 AI。

2025-08-28 11:136762

评论

发布
暂无评论

eNSP常用命令 华为模拟器eNSP常用命令

Python-派大星

10月月更

嵌入式 Linux 入门(五、Shell 脚本编程上:认识 Shell 脚本)

矜辰所致

Linux Shell shell脚本编程 10月月更

小间距LED显示屏视频拼接器的技术要求

Dylan

LED显示屏 户外LED显示屏 led显示屏厂家

9个计算机的“网络层”知识点

华为云开发者联盟

开发 华为云 网络层 企业号十月 PK 榜

极客时间架构训练营模块三作业

李晨

前端技术培训需要什么条件

小谷哥

开源时代下,怎样强化自己的应用安全

Geek_99967b

小程序

AMD x 稀土掘金 1024码上掘金编程挑战赛来了!

猿始人

1024程序员节

大数据培训机构该怎么来选择?

小谷哥

Linux---Linux中Ubuntu镜像之下搭建FTP服务

木偶

Linux ubuntu ftp 10月月更

超级App成为Gartner预测的战略技术,软件降本增效是否能进一步提速?

Speedoooo

小程序 Gartner预测 超级app 小程序化 超级应用

武汉前端编程培训的就业前景怎么样

小谷哥

交换机:广播风暴产生原因与解决方法、STP生成树协议 ,根桥(根交换机)、备份根桥、非根交换机、根端口、指定端口、非根非指定端口、桥ID

Python-派大星

10月月更

用昇腾AI护航“井下安全”

华为云开发者联盟

人工智能 安全 华为云 企业号十月 PK 榜

假如问:你是怎样优化Vue项目的,该怎么回答

bb_xiaxia1998

Vue

react hook 源码完全解读

flyzz177

React

ClickHouse 冷热分离存储在得物的实践

得物技术

数据库 Clickhouse 存储 日志平台 企业号十月 PK 榜

VLAN原理和配置,交换机创建vlan的多种方法、三种接口模式的作用和配置方法、Access、Trunk、Hybrid接口的特性以及配置方法和命令

Python-派大星

10月月更

写过vue自定义指令吗,原理是什么?

bb_xiaxia1998

Vue

前端安全沙箱怎样解决开源的安全问题

Geek_99967b

小程序

北京大数据学习培训机构哪个好

小谷哥

React源码解读之更新的创建

flyzz177

React

10分钟完成模型开发!合合信息智能文字识别服务平台亮相1024程序员节

合合技术团队

人工智能 文档 识别 摩尔纹

优秀开源云原生工具推荐——系列3

HummerCloud

开源 云原生 开源云工具 10月月更

整个汽车产业链,都能“挤上”这朵云?

白洞计划

手把手教你成为荣耀开发者:帐号管理这样做

荣耀开发者服务平台

开发者 手机 安卓 荣耀 honor

教你如何解决T+0的问题

华为云开发者联盟

大数据 华为云 企业号十月 PK 榜

盘点 | 主流跨平台软件开发技术方案

Speedoooo

小程序 APP开发 跨端开发 小程序容器 小程序化

欢迎光临2022年的汽车穿梭餐厅

澳鹏Appen

人工智能 语音识别 数据标注 语音标注 语音数据

西安java开发培训学习哪家机构好

小谷哥

SHAREit X Databend | 跨多云 Data Mesh 大数据平台: Why, What and How

Databend

从1920TPS到2400TPS,华为云Tokens服务全面接入384超节点_华为_InfoQ编辑部_InfoQ精选文章