写点什么

从 1920TPS 到 2400TPS,华为云 Tokens 服务全面接入 384 超节点

  • 2025-08-28
    北京
  • 本文字数:1855 字

    阅读完需:约 6 分钟

从1920TPS到2400TPS,华为云Tokens服务全面接入384超节点

2025 年 8 月 27 日,在第四届 828 B2B 企业节开幕式上,华为云宣布其 Tokens 服务全面接入 CloudMatrix384 超节点,通过 xDeepServe 架构创新,单芯片最高可实现 2400TPS、50msTPOT 的超高吞吐、低时延的性能。

发挥“大杂烩”优势,以系统能力打造先进算力


过去 18 个月,中国 AI 算力需求呈现指数级增长。数据显示,2024 年初中国日均 Token 的消耗量为 1000 亿,截至今年 6 月底,日均 Token 消耗量已突破 30 万亿,1 年半的时间增长了 300 多倍,反映了我国人工智能应用规模快速增长,也对算力基础设施的需求提出了更大的挑战。


在以往按卡时计费的基础上,今年 3 月,华为云正式推出了基于 MaaS 的 Tokens 服务。针对不同应用、不同场景的性能和时延要求,还提供了在线版、进线版、离线版乃至尊享版等多种服务规格,为大模型、Agent 智能体等 AI 工具提供了更为灵活、便捷、低成本的先进算力。


而这一次,华为云的 Tokens 服务正式接入 CloudMatrix384,并通过 384 原生的 xDeepServe 框架再次实现了吞吐量的突破,从年初的 1920TPS 提升至 2400TPS,TPOT 仅为 50ms。



大算力的构建不是单点突破,而是一个从硬件到软件、从算子到存储、从推理框架到超节点的全栈创新,充分依托了华为的“大杂烩”能力。


首先,CloudMatrix384 超节点以全新的计算架构创新,突破性能瓶颈,构筑稳固澎湃的算力根基; CANN 昇腾硬件使能,优化算子与高效通信策略,让云端的算力能够以最高效的方式被调用和组合;EMS 弹性内存存储打破 AI 内存墙,突破性地实现“以存强算”, 彻底释放了每一颗芯片的算力;xDeepServe 分布式推理框架则以极致分离架构 Transfomerless 让超节点释放出更高效算力。

“拆掉”Transformer,xDeepServe 全面激发算力潜能


作为 CloudMatrix384 超节点的原生服务,xDeepServe 以 Transformerless 的极致分离架构,把 MoE 大模型拆成可独立伸缩的 Attention、FFN、Expert 三个微模块,相当于在一台 CloudMatrix384 上把“大模型”拆成“积木”,并分派到不同的 NPU 上同步处理任务。之后,再用基于内存语义的微秒级 XCCL 通信库与 FlowServe 自研推理引擎把它们重新拼成一个超高吞吐的 LLM 服务平台,即 Tokens 的“超高速流水线”。通过 xDeepServe 不断调优,最终实现了从非超节点单卡吞吐 600tokens/s 至超节点单卡吞吐 2400tokens/s 的提升。


作为硬件加速计算的中间层,CANN 包含多个算子库和和 XCCL 这种高性能通信库等组件,共同支撑 AI 模型的高效运行。其中,XCCL 作为专为超节点上的大语言模型(LLM)服务而量身打造的高性能通信库,能够充分发挥 CloudMatrix384 扩展后的 UB 互联架构(UB fabric)的全部潜力,为 Transformerless 的全面分离奠定了带宽与时延双重硬底座。


而作为被重构的“去中心”式分布式引擎,FlowServe 把 CloudMatrix384 切成完全自治的 DP 小组,每个小组自带 Tokenizer、执行器、RTC 缓存与网络栈,自给自足,能做到千卡并发也不“拥堵”。


目前,xDeepServe 已实现 MA 分离,而下一步,将把 Attention、MoE、Decode 全部改成自由流动的数据流,并把同样的拼图方法复制到多台超节点,让推理吞吐像铺轨一样线性延伸,最终或将视线吞吐量的更大突破,让每块 NPU 都高效运作。

聚焦主流大模型,不断提升模型性能


目前,华为云 MaaS 服务已支持 DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan 等主流大模型及 versatile、Dify、扣子等主流 Agent 平台。


华为云积累了大量模型性能优化、效果调优的技术和能力,从而实现“源于开源,高于开源”,让更多大模型可以在昇腾云上跑得更快更好。以文生图大模型来说,在轻微损失画质的情况下,通过 Int8 量化、旋转位置编码融合算子等方式,在在华为云 MaaS 平台实现了 2 倍于业界主流平台的出图速度,最大尺寸支持 2K×2K。而在文生视频大模型上,不仅通过量化方式来提速,还通过通算并行等方式,降低延迟与显存占用,大幅提升视频生成速度,相较于友商实现了 3.5 倍的性能提升。华为云 Tokens 服务在性能、模型适配、效果调优方面的基础,也让更多企业能够快速开发和构建 AI Agent。


而在应用层,华为云已与超过 100 家伙伴携手深入行业场景,共建丰富的 Agent,在调研分析、内容创作、智慧办公、智能运维等领域解决产业难题,让企业更便捷地拥抱 AI 创新,加速智能化。


如基于 MaaS 平台推出的今日人才数智员工解决方案,集成了先进的自然语言处理、机器学习和深度学习技术,能实现与用户的智能交互和任务处理,显著提升服务效率与客户满意度;而北京方寸无忧科技开发的无忧智慧公文解决方案可以提升公文处理效能,实现政企办公智能化转型。


以 Token 为动力的智能社会已经到来,而华为云将以系统级创新能力和全新的 Tokens 服务构筑先进算力,助力各行各业加速落地 AI。

2025-08-28 11:131

评论

发布
暂无评论

事件总线 + 函数计算构建云上最佳事件驱动架构应用

Serverless Devs

项目制实践如何助力组织进化

feijieppm

项目管理 研发效能 技术管理 文化 & 方法 效能度量

效能改进中的度量实践

feijieppm

项目管理 研发效能 技术管理 文化 & 方法 效能度量

2023年了 对Go做一个全网最全的总结

卡二条

Go Go Concurrency Patterns Go web

问题盘点|使用 Prometheus 监控 Kafka,我们该关注哪些指标

阿里巴巴中间件

kafka 阿里云 云原生 Prometheus

DW-Siam:Deeper and Wider Siamese Networks for Real-Time Visual Tracking 更宽更深的孪生网络

Geek_7ubdnf

神经网络

DIMP:Learning Discriminative Model Prediction for Tracking 学习判别模型预测的跟踪

Geek_7ubdnf

神经网络

大前端—2022明星项目,2023展望

非喵鱼

JavaScript Vue 前端 React 前沿技术

GAN:生成对抗网络 Generative Adversarial Networks

Geek_7ubdnf

神经网络

2023年有哪些具备潜力的加密投资标的?

股市老人

IoTLink 轻量级的物联网综合业务支撑平台

山东云则信息科技

Java 物联网 spring-boot

阿里云AIoT 经典基础知识 快问快答——基础知识

阿里云AIoT

Serverless 物联网 API 消息中间件 弹性计算

安全可信| 密评合规!天翼云全栈混合云通过商用密码应用安全性评估!

天翼云开发者社区

2023-01-11:体育馆的人流量。编写一个 SQL 查询以找出每行的人数大于或等于 100 且 id 连续的三行或更多行记录。返回按 visit_date 升序排列 的结果表。 DROP TAB

福大大架构师每日一题

MySQL 福大大

大规模 Kubernetes 集群故障注入的利器-ChaosBlade

阿里巴巴中间件

阿里云 Kubernetes 云原生 ChaosBlade

Java高手速成 | 实现人物拼图游戏

TiAmo

Java 拼图

《天翼云安全白皮书》发布!共铸国云安全生态!

天翼云开发者社区

应用 Serverless 化,让业务开发心无旁骛

阿里巴巴中间件

阿里云 Serverless 云原生

容器服务与达摩院合作 AHPA 获 AAAI 2023 IAAI人工智能创新应用奖

阿里巴巴中间件

阿里云 容器 云原生

TapTap算法平台的 Serverless 探索之路

Serverless Devs

混沌演练实践(一)

京东科技开发者

测试 混沌工程 系统 混沌测试 企业号 1 月 PK 榜

MarkDown简明语法手册

Geek_7ubdnf

markdown

您有一套专属权益已送达,请注意查收

天翼云开发者社区

阿里巴巴重磅开源云原生网关: Higress

阿里巴巴中间件

阿里云 云原生 Higress

微服务引擎 MSE 升级至 3.0:降低微服务在云原生时代的演进成本

阿里巴巴中间件

阿里云 微服务 云原生

天翼云荣获2022年度“边缘计算先锋企业”“分布式云先锋企业”称号!

天翼云开发者社区

RatingBar(星级评分条)

芯动大师

Android Studio 星级评分条 ratingbar

Higress 开源后,我们整理了开发者最关心的 15 个问题

阿里巴巴中间件

阿里云 云原生 Higress

「认知」打工人的自我修养

职场 认知

GA-RPN:Region Proposal by Guided Anchoring 引导锚点的建议区域网络

Geek_7ubdnf

神经网络

IoTLink v1.2.1 最新公告

山东云则信息科技

Java 物联网 springboot

从1920TPS到2400TPS,华为云Tokens服务全面接入384超节点_华为_InfoQ编辑部_InfoQ精选文章