在 2025 收官前,看清 Data + AI 的真实走向,点击查看 BUILD 大会精华版 了解详情
写点什么

浪潮信息刘军:AI 产业不降本难盈利,1 元钱 / 每百万 Token 的成本还远远不够!

  • 2025-12-26
    北京
  • 本文字数:2704 字

    阅读完需:约 9 分钟

大小:1.40M时长:08:10
浪潮信息刘军:AI产业不降本难盈利,1元钱/每百万Token的成本还远远不够!

当前全球 AI 产业已从模型性能竞赛迈入智能体规模化落地的“生死竞速”阶段,“降本” 不再是可选优化项,而是决定 AI 企业能否盈利、行业能否突破的核心命脉。在此大背景下,浪潮信息推出元脑 HC1000 超扩展 AI 服务器,将推理成本首次击穿至 1 元/每百万 token。这一突破不仅有望打通智能体产业化落地“最后一公里”的成本障碍,更将重塑 AI 产业竞争的底层逻辑。


浪潮信息首席 AI 战略官刘军强调,当前 1 元/每百万 token 的成本突破仅是阶段性胜利,面对未来 token 消耗量指数级增长、复杂任务 token 需求激增数十倍的必然趋势,现有成本水平仍难支撑 AI 的普惠落地。未来,AI 要真正成为如同 “水电煤” 般的基础资源,token 成本必须在现有基础上实现数量级跨越,成本能力将从“核心竞争力”进一步升级为“生存入场券”,直接决定 AI 企业在智能体时代的生死存亡。


浪潮信息首席 AI 战略官刘军

 智能体时代,token 成本就是竞争力


回顾互联网发展史,基础设施的“提速降费”是行业繁荣的重要基石。从拨号上网以 Kb 计费,到光纤入户后百兆带宽成为标配,再到 4G/5G 时代数据流量成本趋近于零——每一次通信成本的显著降低,都推动了如视频流媒体、移动支付等全新应用生态的爆发。


当前的 AI 时代也处于相似的临界点,当技术进步促使 token 单价下滑之后,企业得以大规模地将 AI 应用于更复杂、更耗能的场景,如从早期的简短问答,到如今支持超长上下文、具备多步规划与反思能力的智能体……这也导致单任务对 token 的需求已呈指数级增长。如果 token 成本下降的速度跟不上消耗量的指数增长,企业将面临更高的费用投入。这昭示着经济学中著名的“杰文斯悖论”正在 token 经济中完美重演。


来自多方的数据也有力佐证了 token 消耗量的指数级增长趋势。火山引擎最新披露的数据显示,截至今年 12 月,字节跳动旗下豆包大模型日均 token 使用量突破 50 万亿,较去年同期增长超过 10 倍,相比 2024 年 5 月刚推出时的日均调用量增长达 417 倍;谷歌在 10 月披露,其各平台每月处理的 token 用量已达 1300 万亿,相当于日均 43.3 万亿,而一年前月均仅为 9.7 万亿。


谷歌公布其 token 处理量变化


当使用量达到“百万亿 token/月”的量级时,哪怕每百万 token 成本只下降 1 美元,也可能带来每月 1 亿美元的成本差异。刘军认为:“token 成本就是竞争力,它直接决定了智能体的盈利能力。要让 AI 真正进入规模化普惠阶段,token 成本必须在现有基础上继续实现数量级的下降。”

深挖 token 成本“暗箱”:架构不匹配是核心瓶颈


当下,全球大模型竞赛从“盲目堆算力”转向“追求单位算力产出价值”的新阶段。单位算力产出价值受到能源价格、硬件采购成本、算法优化、运营成本等多种因素的影响,但不可否认的是,现阶段 token 成本 80%以上依然来自算力支出,而阻碍成本下降的核心矛盾,在于推理负载与训练负载截然不同,沿用旧架构会导致算力、显存与网络资源难以同时最优,造成严重的“高配低效”。


一是算力利用率(MFU)的严重倒挂。训练阶段 MFU 可达 50%以上,但在推理阶段,特别是对于追求低延迟的实时交互任务,由于 token 的自回归解码特性,在每一轮计算中,硬件必须加载全部的模型参数,却只为了计算一个 token 的输出,导致昂贵的 GPU 大部分时间在等待数据搬运,实际 MFU 往往仅为 5%-10%。这种巨大的算力闲置是成本高企的结构性根源。


二是“存储墙”瓶颈在推理场景下被放大。在大模型推理中,随着上下文长度的增加,KV Cache 呈指数级增长。这不仅占用了大量的显存空间,还导致了由于访存密集带来的高功耗。这种存算分离不仅带来数据迁移功耗和延迟,还必须配合使用价格高昂的 HBM,已经成为阻碍 token 成本下降的重要瓶颈。


三是网络通信与横向扩展代价愈发高昂。当模型规模突破单机承载能力时,跨节点通信成为新瓶颈。传统 RoCE 或 InfiniBand 网络的延迟远高于芯片内部的总线延迟,通信开销可能占据总推理时间的 30%以上,导致企业被迫通过堆砌更多资源来维持响应速度,推高了总拥有成本(TCO)。


对此,刘军指出,降低 token 成本的核心不是“把一台机器做得更全”,而是围绕目标重构系统:把推理流程拆得更细,支持 P/D 分离、A/F 分离、KV 并行、细粒度专家拆分等计算策略,让不同计算模块在不同卡上按需配置并发,把每张卡的负载打满,让“卡时成本”更低、让“卡时产出”更高。

基于全新超扩展架构,元脑 HC1000 实现推理成本首次击破 1 元/每百万 token


当前主流大模型的 token 成本依然高昂。以输出百万 token 为例,Claude、Grok 等模型的价格普遍在 10-15 美元,国内大模型虽然相对便宜,也多在 10 元以上。在天文数字级别的调用量下,如此高的 token 成本让大规模商业化应用面临严峻的 ROI 挑战。要打破成本僵局,必须从计算架构层面进行根本性重构,从而大幅提升单位算力的产出效率。


主流 LLM 的百万 token 价格

(注:9 月 26 日(AICC2025 大会当日)数据,9 月 29 日 DeepSeek 发布 V3.2 Exp 价格降为 3 元/每百万 Token)


为此,浪潮信息推出元脑 HC1000 超扩展 AI 服务器。该产品基于全新设计的全对称 DirectCom 极速架构,采用无损超扩展设计,可高效聚合海量本土 AI 芯片,支持极大推理吞吐量,推理成本首次击破 1 元/每百万 token,为智能体突破 token 成本瓶颈提供极致性能的创新算力系统。


元脑 HC1000 超扩展 AI 服务器


刘军表示:“我们看到原来的 AI 计算是瞄着大而全去建设的,五脏俱全,各种各样的东西都在里面。但是当我们聚焦降低 token 成本这一核心目标之后,我们重新思考系统架构设计,找到系统瓶颈,重构出一个极简设计的系统。”


元脑 HC1000 创新设计了 DirectCom 极速架构,每计算模组配置 16 颗 AIPU,采用直达通信设计,解决传统架构的协议转换和带宽争抢问题,实现超低延迟;计算通信 1:1 均衡配比,实现全局无阻塞通信;全对称的系统拓扑设计,可以支持灵活的 PD 分离、AF 分离方案,按需配置计算实例,最大化资源利用率。


全对称 DirectCom 极速架构


同时,元脑 HC1000 支持超大规模无损扩展,DirectCom 架构保障了计算和通信均衡,通过算网深度协同、全域无损技术实现推理性能 1.75 倍提升,并且通过对大模型的计算流程细分和模型结构解耦,实现计算负载的灵活按需配比,单卡 MFU 最高可提升 5.7 倍。


超大规模无损扩展


此外,元脑 HC1000 通过自适应路由和智能拥塞控制算法,提供数据包级动态负载均衡,实现 KV Cache 传输和 All to All 通信流量的智能调度,将 KV Cache 传输对 Prefill、Decode 计算实例影响降低 5-10 倍。


刘军强调,当前“1 元/每百万 token”还远远不够,面对未来 token 消耗量的指数级增长,若要实现单 token 成本的持续、数量级下降,需要推动计算架构的根本性革新。这也要求整个 AI 产业的产品技术创新,要从当前的规模导向转为效率导向,从根本上重新思考和设计 AI 计算系统,发展 AI 专用计算架构,探索开发大模型芯片,推动算法硬件化的专用计算架构创新,实现软硬件深度优化,这将是未来的发展方向。

2025-12-26 11:095

评论

发布
暂无评论
发现更多内容

【ChatGPT-应用篇】基于chatGPT覆盖测试过程的初步探索 | 京东物流技术团队

京东科技开发者

人工智能 测试 ChatGPT 企业号9月PK榜

TDengine 与煤矿智能 AI 视频管理系统实现兼容性互认

TDengine

时序数据库 #TDengine 恒达智控

坐标休斯顿,TDengine 受邀参与第九届石油天然气数字化大会

TDengine

时序数据库 #TDengine

用友iuap 技术平台:创新基础架构,赋能企业数智化转型

用友BIP

数智底座 2023全球商业创新大会

一文详解数据仓库的物理细粒度备份恢复

华为云开发者联盟

数据库 大数据 华为云 华为云开发者联盟 企业号9月PK榜

支持适配国产化平台的云管理软件你给推荐哪家?

行云管家

云计算 云服务 国产化 云管理

人民日报发文祝贺,这位作者是藏不住了!

博文视点Broadview

基于开源IM即时通讯框架MobileIMSDK:RainbowChat v10.0版已发布

JackJiang

网络编程 即时通讯 IM

第1期 | 抚今 现代企业已步入新的项目制管理时代

用友BIP

项目管理

创新性与自主性的融合

百度开发者中心

AIGC #人工智能 生成式AI

大模型开发:从数据挖掘到智能应用

百度开发者中心

AIGC #人工智能 大模型微调

基于Falcon-7B模型的QLoRA微调实操:构建面向心理健康领域的Chatbot

Baihai IDP

AI LLM 白海科技 大模型微调实践 QLoRA实践

晋级揭晓!华秋第九届中国硬件创新创客大赛-华东分赛区决赛成功举办!

华秋电子

创业

香港站群服务器构建多站点网络的利器,将业务推向新高度

一只扑棱蛾子

站群服务器

NFTScan Meetup 上海站主题分享:TON 的发展现状与未来展望

NFT Research

NFT\

应用场域的深度融合与创新构想

百度开发者中心

#人工智能 ChatGPT 大模型微调

从理解到实现:一种强大的AI技术

百度开发者中心

深度学习 #人工智能 生成式AI

什么是高刷LED屏?

Dylan

刷新 LED显示屏 led显示屏厂家

iOS16新特性:实时活动-在锁屏界面实时更新APP消息 | 京东云技术团队

京东科技开发者

iOS16 企业号9月PK榜 Live Activity

分布式系统的主键生成方案对比 | 京东云技术团队

京东科技开发者

分布式系统 uuid 企业号9月PK榜 主键生成

未来社交媒体的变革者

百度开发者中心

媒体服务 #人工智能 生成式AI

从过去5年CWE TOP 25的数据看软件缺陷的防护

云计算 软件开发 代码

国密算法是什么意思?支持国密算法的云管平台哪家好?

行云管家

云计算 云管平台 云管理 国密 国密浏览器

浪潮信息刘军:AI产业不降本难盈利,1元钱/每百万Token的成本还远远不够!_企业动态_浪潮信息_InfoQ精选文章