50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

从 1920TPS 到 2400TPS,华为云 Tokens 服务全面接入 384 超节点

  • 2025-08-28
    北京
  • 本文字数:1855 字

    阅读完需:约 6 分钟

从1920TPS到2400TPS,华为云Tokens服务全面接入384超节点

2025 年 8 月 27 日,在第四届 828 B2B 企业节开幕式上,华为云宣布其 Tokens 服务全面接入 CloudMatrix384 超节点,通过 xDeepServe 架构创新,单芯片最高可实现 2400TPS、50msTPOT 的超高吞吐、低时延的性能。

发挥“大杂烩”优势,以系统能力打造先进算力


过去 18 个月,中国 AI 算力需求呈现指数级增长。数据显示,2024 年初中国日均 Token 的消耗量为 1000 亿,截至今年 6 月底,日均 Token 消耗量已突破 30 万亿,1 年半的时间增长了 300 多倍,反映了我国人工智能应用规模快速增长,也对算力基础设施的需求提出了更大的挑战。


在以往按卡时计费的基础上,今年 3 月,华为云正式推出了基于 MaaS 的 Tokens 服务。针对不同应用、不同场景的性能和时延要求,还提供了在线版、进线版、离线版乃至尊享版等多种服务规格,为大模型、Agent 智能体等 AI 工具提供了更为灵活、便捷、低成本的先进算力。


而这一次,华为云的 Tokens 服务正式接入 CloudMatrix384,并通过 384 原生的 xDeepServe 框架再次实现了吞吐量的突破,从年初的 1920TPS 提升至 2400TPS,TPOT 仅为 50ms。



大算力的构建不是单点突破,而是一个从硬件到软件、从算子到存储、从推理框架到超节点的全栈创新,充分依托了华为的“大杂烩”能力。


首先,CloudMatrix384 超节点以全新的计算架构创新,突破性能瓶颈,构筑稳固澎湃的算力根基; CANN 昇腾硬件使能,优化算子与高效通信策略,让云端的算力能够以最高效的方式被调用和组合;EMS 弹性内存存储打破 AI 内存墙,突破性地实现“以存强算”, 彻底释放了每一颗芯片的算力;xDeepServe 分布式推理框架则以极致分离架构 Transfomerless 让超节点释放出更高效算力。

“拆掉”Transformer,xDeepServe 全面激发算力潜能


作为 CloudMatrix384 超节点的原生服务,xDeepServe 以 Transformerless 的极致分离架构,把 MoE 大模型拆成可独立伸缩的 Attention、FFN、Expert 三个微模块,相当于在一台 CloudMatrix384 上把“大模型”拆成“积木”,并分派到不同的 NPU 上同步处理任务。之后,再用基于内存语义的微秒级 XCCL 通信库与 FlowServe 自研推理引擎把它们重新拼成一个超高吞吐的 LLM 服务平台,即 Tokens 的“超高速流水线”。通过 xDeepServe 不断调优,最终实现了从非超节点单卡吞吐 600tokens/s 至超节点单卡吞吐 2400tokens/s 的提升。


作为硬件加速计算的中间层,CANN 包含多个算子库和和 XCCL 这种高性能通信库等组件,共同支撑 AI 模型的高效运行。其中,XCCL 作为专为超节点上的大语言模型(LLM)服务而量身打造的高性能通信库,能够充分发挥 CloudMatrix384 扩展后的 UB 互联架构(UB fabric)的全部潜力,为 Transformerless 的全面分离奠定了带宽与时延双重硬底座。


而作为被重构的“去中心”式分布式引擎,FlowServe 把 CloudMatrix384 切成完全自治的 DP 小组,每个小组自带 Tokenizer、执行器、RTC 缓存与网络栈,自给自足,能做到千卡并发也不“拥堵”。


目前,xDeepServe 已实现 MA 分离,而下一步,将把 Attention、MoE、Decode 全部改成自由流动的数据流,并把同样的拼图方法复制到多台超节点,让推理吞吐像铺轨一样线性延伸,最终或将视线吞吐量的更大突破,让每块 NPU 都高效运作。

聚焦主流大模型,不断提升模型性能


目前,华为云 MaaS 服务已支持 DeepSeek、Kimi、Qwen、Pangu、SDXL、Wan 等主流大模型及 versatile、Dify、扣子等主流 Agent 平台。


华为云积累了大量模型性能优化、效果调优的技术和能力,从而实现“源于开源,高于开源”,让更多大模型可以在昇腾云上跑得更快更好。以文生图大模型来说,在轻微损失画质的情况下,通过 Int8 量化、旋转位置编码融合算子等方式,在在华为云 MaaS 平台实现了 2 倍于业界主流平台的出图速度,最大尺寸支持 2K×2K。而在文生视频大模型上,不仅通过量化方式来提速,还通过通算并行等方式,降低延迟与显存占用,大幅提升视频生成速度,相较于友商实现了 3.5 倍的性能提升。华为云 Tokens 服务在性能、模型适配、效果调优方面的基础,也让更多企业能够快速开发和构建 AI Agent。


而在应用层,华为云已与超过 100 家伙伴携手深入行业场景,共建丰富的 Agent,在调研分析、内容创作、智慧办公、智能运维等领域解决产业难题,让企业更便捷地拥抱 AI 创新,加速智能化。


如基于 MaaS 平台推出的今日人才数智员工解决方案,集成了先进的自然语言处理、机器学习和深度学习技术,能实现与用户的智能交互和任务处理,显著提升服务效率与客户满意度;而北京方寸无忧科技开发的无忧智慧公文解决方案可以提升公文处理效能,实现政企办公智能化转型。


以 Token 为动力的智能社会已经到来,而华为云将以系统级创新能力和全新的 Tokens 服务构筑先进算力,助力各行各业加速落地 AI。

2025-08-28 11:136098

评论

发布
暂无评论

明源云参加2022数字化转型发展高峰论坛并获多项殊荣

科技热闻

49张图带领小伙伴们体验一把 Flowable-UI

江南一点雨

spring springboot workflow flowable

阿里SpringBoot实战手册横空出世!从此不再是易学难精

冉然学Java

Java 编程 程序员 Spring Boot 构架

CSS 移动光标使文本产生多个反差色特效

南城FE

CSS css3 前端 动画

阿里IM技术分享(八):深度解密钉钉即时消息服务DTIM的技术设计

JackJiang

架构设计 即时通讯 im开发

首届腾讯云大数据峰会开幕在即,现场将发布全新一代产品矩阵

科技热闻

开源一夏 |分布式事务

六月的雨在InfoQ

开源 分布式事务 2PC 3PC 8月月更

深度学习公式推导(1):神经元的数学公式

老崔说架构

兆骑科创创新创业服务平台,双创活动承办,企业落地孵化

兆骑科创凤阁

QCN9074, 802.11ax,Wallys, 4x4 MU-MIMO, 6GHz, wifi6E,

wallys-wifi6

QCN9074

浅谈成功的企业知识管理

Baklib

底层原理源码+面试场景还原,阿里巴巴多线程JDK源码学习笔记全网首次公开

程序员小毕

程序员 面试 多线程 高并发 jdk源码

如何成就更高远控帧率和流畅度?向日葵SADDC算法浅析

贝锐

算法 视频解码 视觉策略 远程控制

构建元宇宙概念NFT商城系统——艺术数字藏品平台源码部署

开源直播系统源码

软件开发 数字藏品软件开发 数字藏品源码出售

水滴低代码搭建——6倍提效,新品首发素材审核系统实践之路

京东科技开发者

CMS 低代码 表单 素材 低代码开发

因果决策从YLearn开始,数据智能基础软件迎“风口”

九章云极DataCanvas

人工智能 GitHub 数据智能 YLearn 工具包

需求子任务的数据管理提效实践

转转技术团队

开发工具 测试赋能

华为云SparkRTC面向低时延、大通量传输业务的技术探索

华为云开发者联盟

云计算 后端 华为云

华能 + Alluxio | 数字化浪潮下跨地域数据联邦访问与分析

Alluxio

数字化 国产化 东数西算 大数据 开源 数据编排

深入浅出分布式事务的实现原理

清风

面试 分布式事务 后端 原理 事务

《游戏机图鉴》:发展、继承、崩溃、复兴,游戏机的前世今生

图灵教育

开源一夏 | 使用 HTML、CSS 和 JavaScript 的简单模拟时钟

海拥(haiyong.site)

开源 8月月更

Github又爆神作!野生程序员自学SpringCloudAlibaba必备学习笔记开源(阿里2022最新版)

Java永远的神

Java 程序员 面试 微服务 SpringCloud

得物黑科技|AR测量脚型,解决尺码烦恼

得物技术

AR

兆骑科创赛事承办平台,高层次人才引进,创业服务平台

兆骑科创凤阁

人非圣贤孰能无过,Go lang1.18入门精炼教程,由白丁入鸿儒,Go lang错误处理机制EP11

刘悦的技术博客

Go Go web go语言 Go 语言

知识管理体系在企业中的作用

Baklib

开源一夏 |ModelScope--人像卡通化、人像美肤

六月的雨在InfoQ

开源 8月月更 ModelScope

移动端四种热更新技术对比

Geek_99967b

小程序

【Metaverse系列二】3D引擎知多少

ThingJS数字孪生引擎

元宇宙

开源一夏 | 为什么应该参与开源项目

baiyutang

开源 架构 微服务 开源文化 CloudWeGo

从1920TPS到2400TPS,华为云Tokens服务全面接入384超节点_华为_InfoQ编辑部_InfoQ精选文章