
存储短缺带来的焦虑,在 2026 年仍将延续。
最近,不管是三星、SK 海力士、美光在内的固态存储上游厂商,还是戴尔、惠普、联想等下游品牌,均在不同场合确认“存储短缺可能延续至 2026 年甚至更久”,并采取涨价、囤货,或调整配置等应对措施。
弗若斯特沙利文的观察显示:头部企业中,万卡 AI 集群成为常态让存储的 IO 和容量扩展开始拖后腿,存储成本的增速甚至可能超过算力成本,厂商们调整存储架构以降低 TCO;大量的传统企业中已经出现整体 TCO 焦虑,虽然 GPU 单价在下调,但因为沿用传统 IT 存储体系,AI 项目中存储和网络的成本占比越来越高。
一边是全球性短缺与成本上行,一边是企业存不起、买不起的现实焦虑。破解 AI 存储荒,已经成为产业共同面对的关键议题。
为了帮助更多 AI 从业者、企业决策者在数智化转型中,做出更好的业务决策,InfoQ 联合腾讯云发起了「InfraTalk」直播 IP 系列,聚焦云基础设施的技术演进与产业价值,邀请行业分析师、企业实践者与云厂商共同探讨 AI Infra 的能力框架、落地路径与未来趋势。
以下内容为第三期圆桌直播内容精要。InfoQ 邀请文远知行存储系统负责人黎伟杰、腾讯云存储研发总监程力,以及弗若斯特沙利文分析师宋安琦,从应用实践、技术架构与行业趋势三个维度,系统解析存储短缺的成因、企业在存储焦虑下的布局策略,以及 AI 存储未来的竞争主线。
👇完整回放详细看👇
- 3.0x
- 2.5x
- 2.0x
- 1.5x
- 1.25x
- 1.0x
- 0.75x
- 0.5x
👇宝藏观点集中看👇
- 3.0x
- 2.5x
- 2.0x
- 1.5x
- 1.25x
- 1.0x
- 0.75x
- 0.5x
扫描二维码,获取腾讯云联合 IDC 发布的《AI Infra:加速智能体落地的基础架构发展趋势与产业实践》白皮书,了解更多行业知识。
AI 落地时代的存储大考
随着 AI 在各行业加速落地,传统云存储正面临前所未有的压力。
自动驾驶、智慧城市、医疗健康、具身智能等重数据行业推动了非结构化数据的快速膨胀;多模态训练、在线推理和数据挖掘等复杂场景,对吞吐、延迟与数据结构的要求日益提升,使得存储系统在性能、架构和治理层面全面承压。
最先暴露的是性能瓶颈。企业需要同时处理大规模原始数据的高吞吐写入,以及训练场景中对随机读取和低延迟的极致要求,这种“极端混合负载”让原本面向小 I/O 优化的传统架构难以为继。
随之而来的是成本与资源优化压力。 存储介质价格普遍上涨,资源供应紧张,企业亟需通过热存与冷存分层、精细化资源规划等手段实现高效利用。算力侧通过专用芯片和集群调度持续降本增效,此时若存储侧仍采用全热存 / 全闪存等粗放策略,将迅速形成 TCO 瓶颈。
数据治理也变得更复杂。多租户架构需要在保证核心业务的同时进行细粒度资源隔离;跨地域、跨云部署则要求数据在不同法规体系下仍能高效流动。
AI 计算与存储的规模,使得堆卡不再现实,系统对软件质量、性能可靠性和管理能力都提出了前所未有的严苛要求。
在压力倒逼下,存储技术本身也开始向新轨道演进。
最显著的趋势是,存储正从数据堆放点转变为数据治理的关键环节。 面对海量、多模态与异构数据,传统以计算端为核心的数据治理方式已难以满足 AI 对上下文精准匹配与快速处理的需求。存储侧治理正在崛起,通过构建统一命名空间、引入 AI 自动提取元数据及多模态向量索引等技术,实现从“找到数据”到“快速找准数据”的转变。
与此同时,缓存加速技术正沿 AI 场景需求深入演进。 优化利用资源成为企业的关注重点,极简架构和“显存 + 内存 + 存储”的三级缓存体系,减少了 IO 路径和重复计算。目前,这些能力已经在多轮对话等典型场景中体现成效,未来有望成为存储底座的支撑。
存储的数据安全管理升级更加急迫。 面对数据泄露来源更加分散、链路更加复杂的现实,企业不仅需要传统的访问管理,更要能识别“看不见的协作风险”。领先企业已开始引入 AI 驱动的敏感数据监测服务,实现智能告警与自动响应,同时通过零信任架构、最小权限管理、WORM 防篡改等措施,保障数据从接入到使用全流程的安全可控。
AI 的全面落地正在将存储从一个被动的容量提供者,推向具备治理能力、性能优化、安全保障与工程协同的主动式基础设施。它不仅承载数据,更参与业务与算力的联动,成为 AI 规模化落地的不可替代的底层支持。
存储焦虑下,规划存储体系的方法论
当下全球存储行业仍处于产能紧张、供需失衡的“卖方市场”,价格波动频繁且供应链风险上升。
在这一背景下,AI 存储的投资需要建立合理的价值评估方法,和贯穿数据全生命周期的规划。
AI 存储的价值评估
一个合理的评估方法,至少应覆盖性能、资源效率、数据价值和可靠性四个维度:
系统性能维度:关注吞吐带宽、IOPS、端到端读写时延、并发客户端数等决定 GPU 利用率低核心指标;同时需考察整体吞吐量和带宽利用率;
资源效率维度:关注有效容量压缩、去重比、存算比和空间膨胀比(物理存储容量 / 逻辑数据大小)等具体指标;
数据价值维度:分析各项目的空间使用趋势和冷数据占比,判断数据真实价值,指导采购和扩容决策;
可靠性维度:关注可用性、故障恢复时间、数据完整性校验和多租户隔离能力。
全生命周期规划
基于清晰的评价指标,企业才能规划不同阶段的存储建设目标。
早期,业务核心是快速验证模型,满足核心训练需求,稳定且高性能的存储系统是首要投资标准。
随着推理服务和 Agent 应用上线,企业需要关注以存代算、数据编织等提升推理效率的技术,通过更聪明的数据组织方式减少算力浪费、降低成本。
在长期规划中,企业必须面对数据规模的指数级增长,布局具备百 EB 级扩展能力、支持跨域治理的湖仓一体架构,为未来 5~10 年的数据洪峰预留空间。
在数据增长与成本控制之间找到平衡,是 AI 存储的普遍难题。腾讯云与文远知行的观点提供了两条互补路径。
从能力发展的角度看,程力认为,中国企业正处于数据爆发的早期阶段,“保证有地可存”比“过度优化”更紧迫。如果过早因为成本焦虑而人为压缩数据规模,会在未来模型迭代中失去宝贵资产。因此,企业应提前规划容量上限,并构建可持续扩展的底层架构。
从具体业务的角度看,黎伟杰表示,公司的 AI 存储焦虑不在性能上,而是在“存不起、买不起的经济担忧”。他表示,内部没有把希望寄托在硬件的降价,希望通过软件升级、数据策略来缓解焦虑。文远知行的策略是利用智能分层把数据放到相应成本池、利用混合云存储架构缓解突发的存储压力,以及把存量存储转化为高价值存储,提高数据利用率。
总的来说,AI 存储的长期规划依赖两项核心能力:一是前置规划的能力;二是通过软件和架构优化提升资源利用效率的能力。
前者决定企业在数据洪流中能否有地可存,后者决定在成本曲线不断抬升的背景下,是否能够用得高效、存得经济。
一个全球化智驾团队,需要怎样的 AI 存储系统支撑?
作为一家全球化运营的自动驾驶公司,文远知行提供了一个清晰的样本,展示了在存储焦虑下,如何基于真实业务场景构建 AI 存储体系。
作为业务覆盖全球十余个国家、三十余座城市的自动驾驶企业,文远知行需要处理来自不同运营区域、不同车型、不同传感器的数据洪流。为支撑近乎全天候的混合业务架构,公司构建了以广州与硅谷为核心的自建数据中心,并深度整合腾讯云等云厂商资源资源,形成一个可扩展的混合云体系。
当数据规模跨入 PB 级别后,传统的“存得下、跑得快”已不足以描述自动驾驶企业的真正需求。文远知行必须回答两个更深层的问题。
第一,如何在性能与成本之间为海量数据找到动态最优解?
第二,如何在成百上千个并发任务中管控资源边界,使核心任务不被拖慢?
为解决这两个问题,文远知行自研了对象存储系统 WeRide File System 和高性能分布式文件系统 LightningFS。
WeRide File System 承载了公司全部原始数据及海量温冷数据,其定位已超越简单扩展存储空间的阶段,演进为一个智能数据调度中心。
WFS 具备强大的冷热感知机制,能依据数据使用频率和访问规律自动执行分层策略:热数据保留于本地高性能存储池,温数据转存至本地低成本资源池,极低频的冷数据则自动迁移至公有云对象存储 COS 的低频或归档存储中。这一机制有效突破了物理边界,将公有云转化为可无限扩展的“数据冰柜”,而所有数据流动对上层业务完全透明,业务侧始终访问统一的文件索引。
同时,WFS 实现了自适应编码机制:对小文件及元数据采用多副本模式,避免额外计算开销,保障极致访问性能;对占存储主体的大文件,则自动启用纠删码存储。该策略在保持小文件性能不受影响的前提下,将 90% 容量的大文件存储利用率提升至两倍以上。
针对大团队协作,WFS 实现了细粒度带宽管理机制,可根据业务优先级(如高优训练任务与低优归档任务)划分带宽通道,确保即使归档任务全力上传至公有云,核心数据处理带宽仍不受影响,从而保障多租户环境下的服务质量。
LightningFS 部署于计算最密集的区域,直接服务于 GPU 集群,其核心使命是确保算力被高效利用、资源被公平管理。
LFS 通过优化元数据引擎与缓存架构,确保即使在高并发随机读取场景下,延迟仍可控制在微秒级,持续提供高 IOPS,避免 GPU 因数据等待而闲置。
同时,LFS 通过自研配额机制,支持按项目设置空间、文件数及 I/O 使用上限,并实现实时监控与阈值告警,确保资源使用的可控性与公平性,解决资源管控中的公地悲剧问题。
通过自建数据中心与自研存储系统,并与腾讯云对象存储 COS 合作,构建混合云架构,文远知行持续探索 AI 存储的成本、性能和效率最优解,也成为重数据场景中落地 AI 存储体系的标志性案例。
腾讯云如何打造场景化的 AI 存储服务
文远知行的实践展示了存储如何精准匹配业务需求,而腾讯云要做的,正是与客户深度合作,将这类经验沉淀为可复用的平台能力,为各行各业提供更成熟、更实用的 AI 存储解决方案。
腾讯云存储研发总监程力表示,随着 AIGC、自动驾驶、具身智能等新兴场景的迅速扩张,企业对存储系统的要求已从传统的容量与基础访问能力,提升至对海量数据统一管理、多样化数据整合、大规模数据处理、数据治理,以及整体成本与效率的全链路需求。在这些变化推动下,AI 场景为存储带来了前所未有的挑战,也形成了新的发展空间。
在此基础上,腾讯云构建了以对象存储为底座的 Data Platform 数据平台解决方案。对象存储(COS)作为持久化底座,承载训练数据、预处理数据及多模态数据;并推出数据加速器 GooseFS,提供缓存加速与数据流动能力,同时兼容 POSIX、HDFS 等协议,满足数据湖、湖仓一体及海量小文件读取等场景需求。
平台还整合数据万象及其智能检索能力,提供多模态数据处理、合规审查、安全审核、以图搜图及向量检索等能力,用于支撑企业的数据治理与检索需求。
面向高性能存储场景,腾讯云 GooseFS 提供包括缓存加速、并行文件系统,以及将 S3 语义转换为 POSIX 语义的轻量网关 GooseFS MountPoint。对象存储层则通过元数据加速与数据端加速技术,实现多层级性能提升。
程力强调,在自动驾驶等典型 AI 场景中,腾讯云已将高性能缓存和智能检索能力深度融合。例如,通过 GooseFS + MetaInsight,可实现跨桶、跨路径的数据染色与 Asset 级管理,上层业务不再受限于传统对象存储的路径与桶结构。不同任务可就近拉取数据,大幅提升 GPU/CPU 的利用率,同时支持多任务并发时的灵活调度。
凭借在 AI 存储技术、方案可靠性与生态构建方面的持续领先,腾讯云收获了包括文远知行在内的行业头部客户,也被弗若斯特沙利文评为 AI 存储解决方案领域的行业领导者。
AI 存储的未来竞争
在企业需求持续爆发,存储供给可能长期短缺的背景下,未来五年 AI 存储行业竞争将更加集中于体系能力的比拼,主要体现在三条主线。
第一条主线是技术架构的竞争。围绕 GPU、MPU 等异构算力,谁能在高并发环境下提供更高的集群级吞吐量、更低的尾延迟,以及更智能的数据预取缓存和拓扑感知布局,谁就能更有效释放算力价值。
第二条主线是数据价值的竞争。当“能存得下”不再是问题,行业将转向比拼“如何用得好”:通过内置索引、向量检索、智能元数据分析以及 AIOps 自动调优,让存储从成本中心转变为数据资产的运营平台。
第三条主线是生态与自主可控。在全球存储芯片供应紧张及地缘政治风险上升的背景下,构建完整的国产化生态将变得至关重要。未来,一个存储产品的成败,不仅取决于其自身性能,更取决于它在国产 AI 算力堆栈的适配与整合能力。
从企业实践视角看,自动驾驶等重数据行业对 AI 存储的未来发展还提出了更具体的需求。
文远知行存储系统负责人黎伟杰指出,行业期待从三个维度实现突破。
从“被动存储”到“主动智能”。 被动存储,指不知道存入的文件对于业务来说意味着什么,基于简单的规则来做数据治理。希望未来存储能理解数据的业务价值,如自动识别高价值 Corner Case 并提升其存储优先级,实现基于价值的动态资源分配。
从存算割裂,走向透明化的统一编排。目前计算集群和存储集群往往是物理隔离的,做任务编排时调度器不知道数据在哪里,需要工程师人为判断和搬运,效率很低。希望未来借助统一命名空间实现存算协同调度,用户不用担心数据存放在本地 IDC、公有云还是边缘站点,计算调度层能深度自动化,把任务给编排到离数据最近的集群。
从单点数据中心,到全球数据联通。打破目前因政策、网络或管理因素造成的多数据中心+多云区域孤岛,建立一套可统一调度、高速且合规的跨域数据通道,使数据在任意站点之间能像本地一样高效流转,减少复制延迟和运维复杂度。
“存储荒”何时缓解,尚无确定答案。
但对身处这一周期的企业而言,可以确定的是,必须尽早补齐两项核心能力——基于长期数据需求的前置规划能力,以及持续提升资源利用效率的能力。前者关系到企业能否在数据规模持续扩张的背景下保持可持续的存储空间,后者则决定在成本压力不断上行的环境中,项目是否具备可控的投入产出比。
随着本期关于 AI 存储的讨论落幕,「InfraTalk」系列直播也暂告一段落。
从算力突破到存储革新,我们深入 AI Infra 的核心,只为厘清技术趋势,助力您更好地把握未来。
重温全部精彩内容,请关注专题 Agent 浪潮下的 AI Infra
探索不止,让我们持续关注前沿!







评论