50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

浪潮信息刘军:速度就是金钱,AI 超节点的商业价值核心是 Token 交互速度

  • 2025-11-06
    北京
  • 本文字数:2685 字

    阅读完需:约 9 分钟

大小:1.39M时长:08:04
浪潮信息刘军:速度就是金钱,AI超节点的商业价值核心是Token交互速度

“在 AI 超节点系统的设计上,不应该再依照惯性思维,过分追求规模,而是应该从客户视角出发,把 token 交互速度作为关键衡量指标,这是智能体时代 AI 超节点的核心商业价值。”这是浪潮信息首席 AI 战略官刘军近期接受采访时,反复强调的一点。


浪潮信息首席 AI 战略官刘军

智能体时代,速度就是金钱


规模扩展定律(Scaling Law)一直是驱动大模型智能持续增长的底层逻辑,推动着模型参数量从百亿、千亿迈向现在的万亿。在后训练阶段更多的算力投入,能显著提升模型的推理能力,而以推理能力为代表的复杂思维的涌现,是构建智能体应用的基础。另一方面,以 DeepSeek 为代表的开源大模型极大的降低了创新门槛,加速了智能体产业化的到来。


Scaling Law 驱动智能持续进化


刘军指出,“智能体产业化的核心三要素是能力、速度和成本。其中,token 交互速度决定了智能体的商业价值。在当下最常见的人机对话场景中,基本上按照大概 50 毫秒的水平,就是每秒输出 20 个 token,人的阅读速度就能跟得上。但很多人还没意识到,未来的智能体时代会更多的出现机器与机器之间的交互场景,对于智能体之间的交互而言,这个速度远远不够,比如说直播电商、量化交易、欺诈防控等特定业务场景中,对 token 生成速度的最低要求都是 10 毫秒以下。” 


以高强度、实时互动的直播电商场景为例。2024 年底,某知名直播电商平台进行了专家组合智能体的 A/B 实验,实验组部署了经过深度优化的智能体,对照组则使用未经优化的标准版本智能体,优化后的智能体平均响应延迟相较于对照组降低了 38%。实验结果表明,部署了低延迟智能体的直播间,其商品交易总额(GMV)平均提升了 11.4%,同时用户的复购率也取得了 7.8%的显著增长。


38%的延迟降低,并非提升了智能体回答内容的质量,而是确保了这些回答能够被精准地投递在用户购买意图最为强烈的“黄金窗口”期内。在直播电商这类场景中,用户的购买意图是瞬时且易逝的。一个高延迟的回答意味着当智能体还在“思考”时,用户的注意力可能已经转移,或者主播已经开始介绍下一件商品,从而错失了最佳的销售转化窗口。


“在智能体时代,快,不再是可选项,而是商业成功的刚性约束。”刘军强调,“只有当智能体的响应快于业务决策的窗口期,快于用户耐心消逝的临界点……AI 才能真正成为核心生产力。” 

token 交互速度正在重塑 AI 算力价值评估体系


事实上,对于 token 交互速度的考量正在重构 AI 算力系统的价值评估体系。最近广受关注的 InferenceMax™ 开源 AI 基准测试,正在创造一种动态追踪模型更迭的算力评估体系,试图在真实 AI 推理环境下衡量各类 AI 算力系统的综合效率。在这一基准测试中,token 生成速度被列为最重要的一项衡量指标。


SemiAnalysis InferenceMAX™ 开源 AI 基准测试

横轴:交互速度(Interactivity,单位:tok/s/user);纵轴:单位 GPU token 吞吐量(Token Throughput per GPU,单位:tok/s/gpu)


同时,清华大学与中国软件评测中心(CSTC)对 20 余家主流大模型服务提供商的综合表现进行了全面评估,联合发布了大模型服务性能排行榜,明确指出延迟指标是用户体验的核心,直接决定用户留存,是平台差异化竞争的首要技术门槛。因此,速度同样也成为了大模型 API 服务提供商的核心竞争力。当前,全球主要大模型 API 服务商的 token 生成速度,基本维持在 10~20 毫秒左右,而国内的生成速度普遍高于 30 毫秒。


全球大模型 API 服务商 DeepSeek Token 生成速度

元脑 SD200 将 token 生成速度带入“10 毫秒时代”


要实现更低延迟的 token 生成能力,必然要求底层算力基础设施在系统架构、互联协议、软件框架等关键点上进行协同创新。


浪潮信息对元脑 SD200 超节点 AI 服务器进行了大量的软硬件协同创新与优化,实现 DeepSeek R1 大模型单 token 生成速度低至 8.9 毫秒,带动国内 AI 服务器 token 生成速度率先进入“10 毫秒时代”。


元脑 SD200 超节点 AI 服务器


对于为何能在 token 生成速度上实现如此出色的性能,刘军表示,智能体中各个模型之间的交互,很多时候通信数据包并不是很大,超高的带宽会出现浪费,“就像是从 a 地到 b 地修了 16 车道的高速公路,但是车辆在 16 车道上只跑了很短的距离,反而在上高速和下高速这两个节点花了很长时间。浪潮信息的优化重点,就是解决车辆上高速和下高速的卡点问题,让车辆直通上来,直通下去。”


元脑 SD200 采用了独创的多主机 3D Mesh 系统架构,实现单机 64 路本土 AI 芯片高密度算力扩展,原生支持开放加速模组 OAM,兼容多元 AI 芯片。同时,元脑 SD200 通过远端 GPU 虚拟映射技术创新,突破跨主机域统一编址难题,实现显存统一地址空间扩增 8 倍,单机可以提供最大 4TB 显存和 64TB 内存,为万亿参数、超长序列大模型提供充足键值缓存空间。基于创新的系统架构设计,元脑 SD200 单机即可承载 4 万亿单体模型,或者同时部署由多个万亿参数模型构成的智能体,多模协作执行复杂任务。


元脑 SD200 创新多主机 3D Mesh 系统架构


互连协议的设计是元脑 SD200 实现极低通信延迟的关键,浪潮信息做了大量的通信优化和技术创新,如采用极致精简的 3 层协议栈,并原生支持 Load/Store 等“内存语义”,让 GPU 可直接访问远端节点的显存或主存,将基础通信延迟缩短至百纳秒级;另外 Open Fabric 原生支持由硬件逻辑实现的链路层重传,重传延迟低至微秒级,特别是分布式、预防式的流控机制,实现全局任务均在发送前确保接收端有能力接收,从根本上避免了拥塞和丢包。


元脑 SD200 极低 Latency 通信


除了硬件方面的创新,浪潮信息也针对 DeepSeek、Kimi 等模型的计算特征和元脑 SD200 的硬件架构特征,完成了通信库、计算框架、PD 分离策略等多方面的优化,大幅提升了 DeepSeek、Kimi 等大模型的推理输出速度。通信库层面,针对 Allreduce、Allgather、Alltoall 等典型通信算子,浪潮信息制定了与元脑 SD200 深度适配的通信算法;框架层面,浪潮信息完成了并行方式、算子融合、多流水线等多方面优化,来保证计算的低延迟;在推理阶段,浪潮信息开发了预填充-解码 (Prefill-Decode) 分离软件,针对预填充与解码不同的计算特性,使用不同的并行计算策略、硬件配置等,提高系统整体的计算性能。


实测数据显示,元脑 SD200 搭载 64 张本土 AI 芯片运行 DeepSeek R1 大模型,当输入长度为 4096、输出长度为 1024 时,单用户 token 生成达到 112 tokens/s,每 token 生成时间仅为 8.9ms,率先实现国内 AI 服务器 token 生成速度低于 10ms,将推动万亿参数大模型在金融、科研、智能制造等领域快速落地。


未来十年 AI 经济的增长边界,从某种意义而言,将取决于整个行业在算法、软件和硬件层面协同攻克延迟挑战的能力。“速度就是金钱”不仅是一种新的商业主张,更是驱动下一代人工智能增长的核心经济逻辑。浪潮信息将面向智能体产业化需求,持续以架构创新激发产业创新活力,让 AI 成为百行千业的生产力和创新力。

2025-11-06 18:5614

评论

发布
暂无评论
发现更多内容

设备健康管理在石化行业的探索与实践

PreMaint

预测性维护 设备健康管理

【荣耀开发者服务平台—百亿曝光扶持等你来】智慧服务内容接口卡片接入指南

荣耀开发者服务平台

手机 激励 卡片服务 厂商 honor

数据变更白屏化利器-推送轨迹上线

阿里巴巴云原生

zookeeper 阿里云 开源 微服务 云原生

软件测试 | 测试开发 | app自动化测试(Android)-- 特殊控件 T识别oast

测吧(北京)科技有限公司

自动化测试 Android;

代码质量与安全 | 实践“边写边清理”,您需要做好这两件事:质量配置文件和质量门

龙智—DevSecOps解决方案

代码质量 代码安全 静态代码安全

国产操作系统应用小程序化:夯实技术底座,促进生态发展

Speedoooo

小程序 国产操作系统 小程序容器

GOPS现场 | 对话龙智技术顾问,分享DevOps观察与心得

龙智—DevSecOps解决方案

运维 DevOps工具链

软件测试 | 测试开发 | RPC接口测试技术-Tcp 协议的接口测试

测吧(北京)科技有限公司

2022年8月国产数据库大事记-墨天轮

墨天轮

数据库 opengauss 国产数据库 达梦 polarDB

软件测试 | 测试开发 | 一文搞懂测试左移和测试右移的 Why-How-What

测吧(北京)科技有限公司

测试 安全测试

软件测试 | 测试开发 | 抓包分析 TCP 协议

测吧(北京)科技有限公司

TCP 抓包分析

软件测试 | 测试开发 | 文未有福利 | 接口自动化你不懂?听HttpRunner的作者怎么说

测吧(北京)科技有限公司

测试 接口调试

Serverless 架构下的 AI 应用开发:入门、实战与性能优化

阿里巴巴云原生

阿里云 Serverless 云原生

北京哪家WEB前端培训机构比较不错

小谷哥

软件测试 | 测试开发 | 基于Requests与mitmproxy打造迷你接口测试框架

测吧(北京)科技有限公司

测试 Request

设计模式的艺术 第二十二章观察者设计模式练习(开发一款实时在线股票软件。该软件需要提供如下功能:当股票购买者所购买的某只股票价格变化幅度达到5%时,系统将自动发送通知(包括新价格)给购买该股票的所有股民。试使用观察者模式设计并实现该系统)

代廉洁

小六六学Netty系列之Netty群聊

自然

Netty 网络 9月月更

牛客“基础-中级-高级”Java程序员面试八股文集结,熬夜挑灯刷

程序知音

Java java面试 后端技术 Java面试八股文 Java 面试题

测试管理 | 龙智获得Xray专家认证

龙智—DevSecOps解决方案

Jira插件

LED屏幕有色差要怎么办?

Dylan

LED显示屏 户外LED显示屏 led显示屏厂家

leetcode 104. Maximum Depth of Binary Tree 二叉树的最大深度(简单)

okokabcd

LeetCode 算法与数据结构

软件测试 | 测试开发 | 接口管理工具YApi怎么用?颜值高、易管理、超好用

测吧(北京)科技有限公司

测试 Mock

我用 极狐 Gitlab issue 来点菜 #JIHULAB 101

朱亚光

JIHULAB 101

在Java培训机构中怎么学习?

小谷哥

软件测试 | 测试开发 | app自动化测试(Android)--显式等待机制

测吧(北京)科技有限公司

测试

版本管理 | 如何解决SVN的合并冲突与分支问题?

龙智—DevSecOps解决方案

svn 版本管理

区块链NFT网站开发:NFT数字藏品网站开发

开源直播系统源码

NFT 数字藏品 数字藏品系统

最后 3 天|报名参加 OpenYurt+EdgeX 挑战赛 ,冲击最高 5 万元奖励!

阿里巴巴云原生

阿里云 云原生 openyurt EdgeX

Spring源码分析(九)lazy-init 在Spring中是怎么控制加载的

石臻臻的杂货铺

spring 9月月更

CI/CD | 大型企业与开发团队如何进行持续集成与持续发布

龙智—DevSecOps解决方案

持续集成 CI/CD 持续发布

硅谷名企、国内大厂是如何度量研发效能的?|ONES 研发管理大师课

万事ONES

浪潮信息刘军:速度就是金钱,AI超节点的商业价值核心是Token交互速度_企业动态_浪潮信息_InfoQ精选文章