“Token 大爆炸”前夜，数据基础设施正在成为新的变量

Agent 正在制造一场“Token 大爆炸”。六年前，OpenAI Token 使用量最大的用户每月能消耗约 10 万个 Token。但在 2026 年，这个数字变成了 10000 亿。

当 Agent 开始吞噬企业软件，一场“Token 大爆炸”已无法避免。

“Token 经济时代已经到来了。”华为数据存储产品线副总裁吴俊杰在做客 InfoQ《C 位面对面》栏目时表示，Agent 的爆发式增长将推动 Token 需求持续攀升，对于部署 Agent 和大模型应用的企业而言，需要考虑的问题已经不仅是能否把 AI 用起来，更重要的是如何在保证体验的同时，将每 Token 的成本控制在合理范围内。而这，与企业的数据基础设施能力息息相关。

过去几年，AI 发展经历了算力、模型、应用三个阶段。如今，AI 正在进入以数据为核心的第四阶段。在这一阶段，数据不再只是训练和推理的“原材料”，而是直接决定模型精度、幻觉水平与泛化能力的关键变量。谁能更高效地组织、检索和流转数据，谁就能在 Agent 时代继续留在牌桌上。

行业据此已经形成了共识。Gartner 预测，在 2026 年，人类智能、机器智能和组织智能之间的界限将继续模糊，企业将以前所未有的方式依赖数据。

但 Agent 吞掉的，真的只是 Token 吗？企业如何摆脱 Token 成本“刺客”？企业 AI 落地真正的卡点又在哪里？在本期《C 位面对面》中，InfoQ 极客传媒总编辑 & 总经理王一鹏对话华为数据存储产品线副总裁吴俊杰，一起聊聊“Token 大爆炸”前夜，数据基础设施何以成为新的变量。

Agent 吞掉的，不只是 Token

表面上，Agent 快速发展带来的是 Token 消耗量的狂飙，但本质上，它更像是对企业的数据能力进行一次前所未有的压力测试。

最明显的，是数据类型上的变化——Agent 产生了许多过去从未存在过的数据类型。比如在 Agent 推理的过程中，会产生 KV Cache 过程数据；随着推理不断深入，还会产生让 AI 能够记住并回溯过往行为的长期记忆数据。

更深层的变化，发生在取数逻辑上。在云计算时代，无论是数据库查询、文件访问还是虚拟化应用，本质上都是无状态、没有上下文关联、一次性完成的访问行为。但到了 AI 时代，Agent 的工作方式更像是一个 7×24 小时持续在线的数字员工，数据访问频次不像过去一样，有波峰、波谷，而是不停地访问。

这种持续不间断的上下文交互，把底层数据基础设施的响应速度逼到了墙角。黄仁勋在不久前举行的 GTC 台北大会上，甚至将记忆管理定位为 Harness 体系里最困难的环节之一。原因在于，整个 AI 的记忆系统，从决定该记住什么样的工作记忆（即 KV Cache），到如何进行高效检索，都在向传统的存储架构发出挑战。

“传统的存储，在 AI 时代已经不能满足 AI 推理的需求了。”吴俊杰坦言，随着百万级上下文、多轮推理成为主流大模型的“标配”，Agent 在推理的过程中需要持续、高频地加载历史对话、知识库内容和实时信息。过去，业务的 I/O 模型和时延要求可能是毫秒级的；但在 AI 时代，这个标准被被提升到了微秒级。数据返回的任何一丝延迟，都会造成算力等待和空转。

这些变化指向的是，数据基础设施，很可能成为企业整个 Token 生产链条中新的瓶颈。而它最直接的后果，就是成本开始失控。

警惕 Token 成本“刺客”

Token 消耗的持续攀升，让成本变成了一个敏感的话题。

很多企业习惯性地将 AI 成本高归因于 GPU 价格和算力投入，但这只是故事的一半。在 AI 建设中，算力部署与电费是看得见的显性开销，真正容易被忽视的，是隐藏在系统运行过程中的隐性成本——算力的浪费。

这种浪费主要体现在三个方面。

第一，算力等数据。 模型在训练过程中，需要持续、大规模的数据供给。如果数据供给的效率满足不了算力需求，算力就只能处于等待状态。当模型规模增长到一定的数量级时，这种等待带来的损失也会被持续放大。

第二，算力独占。 并不是所有的 AI 任务都需要独占一张高性能计算卡，一些相对小型的 AI 项目，如果独占一张算力卡，剩余的计算资源将无法被其他任务共享，造成算力资源浪费。

第三，重复计算。 在多轮次、长序列的推理过程中，由于显存空间不足，部分缓存数据无法保留，很多推理任务被迫截断，最终导致算力卡做大量的重复工作。

三种浪费指向的，其实都是底层的数据基础设施。当数据基础设施的供给能力追不上算力的消耗速度，算力浪费就是必然结果。

那么，如何让每 Token 的成本真正得到控制？

“答案跟整个数据的基础设施息息相关”，吴俊杰认为，无论是训练阶段的数据供给，还是推理阶段的上下文管理、KV Cache 复用，本质上都在影响算力利用率，而算力利用率又直接决定了每 Token 的最终成本。

以训练场景为例，如果存储系统无法持续、稳定地向算力集群提供数据，算力卡就会因为等待数据而空转。华为在其 AI 存储方案中，曾尝试通过横向扩展提升系统带宽能力，最终带宽达到 100 TB/s 级别，并将检查点数据读写时间从十分钟级缩短至秒级。端到端计算能力利用率提升超过 30%，减少 GPU 的无效等待。

到了推理阶段，新的挑战来自于不断膨胀的上下文数据和 KV Cache。当百万级上下文、多轮推理成为常态，系统需要保存和调用大量的记忆数据。如何降低推理过程中对显存资源的依赖，进而降低成本？在日前举行的 2026 华为创新数据基础设施论坛上，华为以 CMS（Context Memory Storage）向业界提供了一个参考样本。

CMS 是业界首个支持异构算力的上下文记忆存储方案，它支持 KV 语义直通或采用专用 DPU 进行语义卸载，并能扩展为 PB 级的共享 KV 缓存池，能让推理过程中产生的大量上下文数据，得到有效的存储，最终使每 Token 的成本下降 30% 左右，同时将推理首 Token 时延降低 90%。

技术层面的优化可以降低 Token 成本，但企业 AI 落地的复杂性，远不止于此。

企业 AI 落地的隐秘真相：卡点背后的系统性困局

企业真正进入 AI 落地阶段后，会发现很多项目卡住的地方，往往并不在模型本身。

吴俊杰把企业在 AI 落地时最常见的卡点归纳成两个：数据语料不够、质量不高，以及算力、AI 专业人才有限。

比如，很多企业以为自己有大量的数据，但到了真正使用时才发现，数据分散、格式不统一、质量参差不齐，能直接变成 AI 语料的部分并不多。

崖州湾国家实验室就是一个典型案例。这个农业领域的国家级实验室，最近几年来正在尝试通过 AI 打造育种 Agent，缩短育种周期。但问题是，海量的育种数据分散在全国数百个科研基地、高校和企业之间，缺少全面、标准化、可共享的表型组数据库、育种知识库，导致基因数据难以和作物性状（如抗旱表现、产量潜力）高效关联，育种周期、预见精度都受到影响。

为此，华为与崖州湾国家实验室联合构建了 AI 数据湖解决方案，帮助实验室汇聚了全国多源头农业数据，实现数据可视、可管、可流动，形成规模化种业数据资源池，并结合数据加工、应用编排、模型工程等工具进一步加工成高质量 AI 语料库。育种 Agent 落地后，能减少 50% 育种周期，育种效率提升 30%。

算力资源方面，并不是每家企业都有条件部署大规模算力集群，和具备一支专业的 AI 人才队伍。如何在有限的资源约束下，把 AI 高质量地部署起来，是大多数企业的真实痛点。

瑞金医院也是如此。作为中国头部医疗机构，瑞金医院虽然在过去积累了上百万份病理切片数据，但手里仅握有 16 张算力卡，这些算力资源根本不足以支撑一个复杂病理大模型的训练，医院也难以负担巨额的硬件扩容成本。同时，数据本身的准备也是一场硬仗，数据清洗、标注、归集需要专业临床医生与数据工程师大量协同，耗时费力。

华为通过 DCS AI 解决方案，提供了两层解题思路，从数据工程、模型工程到应用编排打造了一套覆盖全流程的工程化工具：

在数据准备阶段，通过 ModelEngine 工具链实现全流程自动化处理，医生的工作从逐条标注转为批量审核，数据标注效率提升数十倍；
在模型适配阶段，通过模型蒸馏技术，将 671B 通用模型的能力蒸馏到 32B 参数规模的专家模型，同时结合资源调度技术，提升算力卡的资源利用率和应用会话的并发，最终在 16 张卡的资源条件下，成功帮助瑞金医院孵化出具备临床验证能力的 RuiPath 病理大模型。

把两个案例放在一起会发现，企业 AI 落地的卡点，从来不是单点的，而是系统性的。数据语料、算力资源、模型工程、开发工具、数据安全……任何一个环节的短板，都会拖住全局的后腿。割裂地解决单个问题，显然治标不治本。

这也是华为提出 AI DC 数据基础设施全栈方案 的底层逻辑。“企业要加速 AI 的落地，需要考虑建设私有的 AI 技术栈。 华为把它叫做 AI DC 数据基础设施全栈方案，全盘地去考虑数据湖、知识与记忆平台、算力、模型框架，包括 Agent 的开发，以及端到端的数据韧性等，完整的去规划和建设各方面的能力。”

据吴俊杰介绍，这套全栈方案由五层架构组成：数据湖、AI 数据平台、算力管理与调度、模型工程、Agent 开发框架。

第一层是 AI 数据湖，重点解决语料供给问题。华为通过 OceanStor Pacific 全闪分布式存储，实现最优 TCO 存储海量数据；依托 DME Omni-Dataverse 统一数据空间，使能多模态、跨站点数据实时入湖、全局可视可管，同时具备千亿千维向量数据的秒级检索能力，实现高质量数据汇聚与供给。

第二层是 AI 数据平台，这也是整套架构中，非常关键的一层。它直面 Agent 落地过程中最棘手的三个难题：知识怎么快速找得到、长上下文推理的效率、以及 Agent 的经验怎么沉淀下来。

在知识处理方面，华为 AI 数据平台能将知识检索精度从 70% 提升至 95%，知识库容量从亿级扩展至千亿级，知识更新实现秒级响应，检索结果全程可追溯；在推理效率方面，依托 UCM（Unified Cache Manager）技术实现 KV Cache 的智能分级管理，打破显存瓶颈，实现首 Token 时延最高降低 90%、推理吞吐提升 2 倍以上，优化推理效率与用户体验；在记忆管理方面，能沉淀 Agent 交互过程中的工作记忆与经验记忆，让 Agent 可以支持多轮任务的连贯跟进、并贴合用户使用习惯提供个性化响应，提升 Agent 推理准确率 30%。

第三层是算力管理与调度。 通过 DCS AI 解决方案中的 ModelEngine 工具链，实现 XPU 算力的虚拟化和细粒度切分，最大可实现 XPU 卡 1:10 切分，做到“一卡多用”，提升资源利用率。

第四层是模型工程。 通过开箱即用的模型工程能力，帮助企业更高效的实现模型部署。同时，提供模型的适配、增训等能力，让通用模型能够高效转化成行业专用模型。

第五层是 Agent 开发框架。 通过 ModelEngine Nexent 智能体平台，用户可以用自然语言直接生成 Agent，大幅降低开发门槛，使 Agent 上线周期缩短 80%；此外，ModelEngine Nexent 还能对 Skill、提示词、记忆实现自动优化，让 Agent 越用越聪明。

从数据源头到 Agent 生产，这五层架构形成了一条完整的链路，更像是一条为 AI 原生应用量身打造的数据“生产线”。

在这条“生产线”上，数据不再只是被存储的静态资产，而是从入湖、加工、检索到注入记忆、驱动 Agent 决策，一路流动、一路增值。如果说模型决定智能的上限，那么这套体系，决定的就是智能能否真正落地。

结语：AI 的下半程在于数据

回到最开始的那个“Token 大爆炸”问题，显然，当下真正值得大家关注的，早就不是 Token 数量本身，而是数字背后，是什么在真正决定 Token 的生产成本、生成质量与价值转化率。

答案，正指向数据。

在 2026 华为创新数据基础设施论坛上，华为提到一个很有意思的判断：AI 的下半程在于数据。如果说 AI 的第一章是算力，第二章是模型，第三章是 Agent，那么第四章，毫无疑问就是数据。

当 Agent 开始批量上岗，成为 7×24 小时工作的数字员工时，企业比拼的不再是谁调用了更多 Token，而是谁能让数据流得更顺、记得更久、算得更值。而数据湖、知识与记忆平台、KV Cache、算力调度、模型工程这些看起来不那么性感的数据基础设施，正在成为这个问题最关键的答案之一。

创作场景

“Token 大爆炸”前夜，数据基础设施正在成为新的变量

Agent 吞掉的，不只是 Token

警惕 Token 成本“刺客”

企业 AI 落地的隐秘真相：卡点背后的系统性困局

结语：AI 的下半程在于数据