写点什么

不到 10% 的存储投入,可能拖垮 90% 的 GPU 投资!IBM 把 AI Agent 塞进存储系统,算清企业最容易忽略的一笔账

  • 2026-04-29
    北京
  • 本文字数:4407 字

    阅读完需:约 14 分钟

“现在的挑战是,有钱也买不到东西。从 DRAM 到闪存颗粒,再到硬盘和磁带,几乎所有跟存储相关的环节都面临严重供给压力。现在去下单硬盘,20T、24T 硬盘的交付周期普遍在 52 到 72 周。”IBM 大中华区存储事业部总经理吴磊说道。

 

随着大模型从训练走向应用,企业 AI 基础设施的压力正在从算力侧扩散到数据和存储侧。过去,存储常常被视为数据中心里的“配套设备”,但如今却正在成为决定 GPU 利用率、数据流动效率,以及企业 AI 投入产出比的关键环节。尤其在供应紧张的情况下,存储的价值被重新放大。

 

“原材料涨价是谁都躲不开的。”吴磊坦言,IBM 的产品价格也会受到上游成本影响,但团队并没有简单跟随原材料价格大幅上调,而是希望通过技术手段降低客户的实际使用成本。

 

近期,IBM 升级了新一代存储产品体系:一方面,在 FlashSystem 中内置了名为 FlashSystem.ai 的智能体,用自然语言辅助用户完成存储管理和运维任务;另一方面,推出第五代闪存核心模块 FlashCore Module 5,也就是 FCM5,通过盘上计算实现压缩、去重和加密,在可压缩数据场景中最高可实现 1:5 的压缩比。也就是说,100GB 物理容量在开启压缩后,理论上可承载约 500GB 数据。

 

除闪存外,IBM 也重新强调了磁带技术在 AI 时代的价值。AI 时代的数据规模巨大,其中相当一部分需要长期保存,但并不需要一直以最高性能访问。在这类冷存储场景中,磁带仍然是支撑长周期归档的重要介质之一。 

不到 10%的存储投入,可能决定 90%的 GPU 投资效率

 

AI 进入生产环节后,“AI 存储”成为行业高频词。但从技术源流看,它与过去几十年的超算存储需求一脉相承。

 

吴磊表示,在气象预报、石油勘探、高性能计算等场景中,数百、上千甚至上万个分布式节点会共同执行浮点计算。计算完成后,数据必须快速写回存储系统。如果无法及时落盘,前面投入的大量计算和网络资源就会被浪费。

 

AI 训练放大了这一问题。大模型训练周期更长,GPU 成本也更高。一个模型训练可能持续数天、数周甚至更久,任何一次 checkpoint 落盘失败或延迟,都可能造成昂贵算力等待,甚至导致前面投入前功尽弃。

 

“现阶段的 AI 存储,首先要能在 checkpoint 时快速落盘。”吴磊表示,落盘时间越短,GPU 等待时间越少,整体训练成本就越低。存储投入虽然可能只占数据中心总投资的不到 10%,但如果最终无法获得训练结果,这 10%的短板就可能毁掉其余 90%的投资成果。

 

IBM 中国区存储业务销售总经理金鑫也用量化基金客户的案例解释了存储对 GPU 利用率的影响。

 

这些客户前几年高速发展时采购了大量 GPU,但后来发现,虽然卡很多,却经常处于闲置状态,原因是开源存储架构带宽不够,数据无法及时落盘。更换 IBM 存储后,整体效率提升了约 15%。这相当于用不到整个项目 10%的预算采购存储,却把原先 GPU 卡的利用率提升了 15%。在 GPU 难买、价格高企的环境下,这笔账对客户非常直接。

 

从行业需求看,电子、半导体、高端制造和金融行业对 AI 存储及智能化存储管理的兴趣最强。这些行业有几个共同特点:数据量大、生产系统连续性要求高、对高可用和安全要求极高,同时专业运维人员又相对稀缺。

 

在高端制造场景中,一分钟停机可能造成数千万美元损失;在晶圆厂,如果流片过程出现问题,损失可能以亿元计。对这类企业而言,存储不是普通 IT 设备,而是直接影响生产连续性和财务结果的关键系统。

 

除了快速落盘,吴磊认为 AI 存储还必须具备两项能力:

 

  • 可扩展性。当前模型训练和推理规模已经不是传统的十几个、二十个节点,而是动辄百卡、千卡乃至万卡。在如此庞大的集群中,存储系统既要支撑 checkpoint 落盘,也要支持数千甚至数万个节点的动态伸缩。

  • 支持 AI 管道中的数据安全流动。训练不可能只发生在单一云上,客户往往会同时使用自有数据中心、A 公有云、B 公有云,在有 GPU 的地方完成训练,再把训练好的模型取回用于推理和业务使用。AI 存储必须能让数据在这些环境之间安全、可靠、低成本地流动。

 

IBM 如何应对存储市场变化

用“计算存储”摊薄闪存成本

 

在闪存市场,IBM 选择的是“计算存储”路线,而不是简单用控制器加闪存颗粒的消费级路线。

 

以第五代 FCM 为例,每块盘上都内置高性能处理器和 FPGA 芯片,可以在盘级实现加密、压缩、去重等功能,从而减少实际写入闪存颗粒的数据量。新一代 FCM 在密度和散热上也有所改进,厚度约为原先 M.2 规格的一半,风道和散热效率更好。另外,由于盘上芯片可以对数据进行排列和优化,内部测试显示,整盘寿命相比普通 NVMe 可提升 57%。

 

吴磊表示,在可压缩数据场景中,FCM 可以做到 1:3 甚至 1:5 的压缩比。也就是说,数据进入系统后会先在盘上压缩,再写入闪存颗粒,实际写入量可能只有原始数据的 20%到 30%。这不仅扩大了有效容量,也减少了颗粒磨损。

 

如果数据具备较好的可压缩性,即使闪存涨价,在开启较高压缩比后,客户的每 TB 实际使用成本仍可能低于涨价前水平。原因在于容量被放大后,控制器、机头等固定成本会被进一步摊薄。

 

不过,这一判断有前提:数据必须可压缩。如果是 JPEG 图片,或者已经压缩过的 H.264、H.265 视频流,压缩效果可能并不理想,甚至可能因为校验机制导致体积增加。但对于数据库、结构化和半结构化数据,通常可以获得较好的压缩收益。

 

把 AI 智能体装进存储管理系统

 

FlashSystem.ai 是此次升级中的另一个重点。它可以理解为部署在客户数据中心里的存储智能体,采用容器方式离线部署,不需要客户额外购买模型,也不需要 GPU 卡,CPU 即可完成推理。这个智能体可以用自然语言辅助完成存储管理操作。

 

不过,FlashSystem.ai 并不是要替代核心存储软件。真正处理 IO 链路、数据一致性、数据完整性、SAN 协议转换、文件系统和操作系统对接的底层能力,仍然由传统存储系统完成。AI 主要作用在管理层,帮助企业降低存储运维门槛。

 

为了降低风险,FlashSystem.ai 在设计上只能做“加法”,不能做高风险“减法”。例如,它可以创建卷、扩大容量、生成系统概述和配置建议,但不能直接删除卷或缩小节点,因为这类操作可能影响生产环境。此外,FlashSystem.ai 不会把客户数据传到 IBM 或远程云端,而是以容器形式部署在客户本地数据中心。

 

吴磊表示,AI 工具可以把 IBM 多年沉淀的最佳实践自动化。相比人类管理员,AI 不会疲劳,也能减少误操作风险,但最终决策仍然需要人负责,AI 本质上仍是助手和工具。

 

在 AI 智能体时代,存储系统不仅要拥有自己的 Agent,也要能被其他 Agent 调用。FlashSystem.ai 可以提供 MCP 能力,让其他系统智能体调用。

 

不过,吴磊也指出,对于未来存储采购标准来说,AI 智能体现阶段还只是加分项。存储的核心仍然是稳定、可靠地处理数据服务和 IO 链路,AI 不会替代底层存储能力。

 

但他也认为,存储设备正在走向精简化。过去一个大型存储机柜可能只有 100TB 容量,现在 2U 空间就可以达到几百 TB。在设备密度提高、环境复杂度上升之后,AI Agent 在管理层的价值会越来越明显,比如未来 AI 可以辅助实现更高级的工作负载迁移。

 

据悉,FlashSystem.ai 已经在今年第一季度发布,真正可投入生产的 GA 版本预计在下半年,目前已有内部测试客户。

 

给存储加上“内容感知”能力

 

过去几年,大模型建设主要围绕训练展开,数据来源也以互联网公开数据为主。但当大模型真正进入企业真实业务后,挑战发生了变化:企业需要把内部海量存量数据转化为模型可以调用、理解和推理的生产资料。

 

企业 AI 需要多模型部署和实时洞察。过去训练模型可以依赖静态历史数据,但推理必须基于实时数据,否则模型会陷入“盲区”。

 

与此同时,不少企业的数据规模已经从数百 TB 跃升至十 EB 甚至二十 EB 级别,涵盖结构化、半结构化和非结构化数据。其中,云上存储和传统企业存储中存在大量非结构化数据,智能汽车、工业设备、IoT 终端等边缘设备也在持续产生 TB 级实时数据。

 

在这种情况下,单纯购买 GPU、CPU、存储设备,或者部署类似大模型一体机、编程环境等工具,如果没有打通数据流动和治理体系,很难真正把 AI 转化为生产力。

 

针对数据流动复杂、成本高企的问题,IBM 提出的核心思路是“让 AI 走向数据”,而关键能力之一是 CAS(Content Aware Storage),即内容感知存储。

 

它的意思是,存储系统不能只是知道“这里有一个文件”,还要知道这个文件有没有变化、什么时候变化,并让上层 AI 应用及时感知。

 

这对企业 AI 尤其重要。比如,系统中如果还保存着 25 年前 LTO1 时代的产品彩页和说明书,即使模型训练得再好,推理结果也可能基于旧资料。真正有价值的企业 AI,需要在 LTO10 产品资料更新时及时知道变化,并把新数据送入模型推理流程。

 

过去,这类工作可能依赖人工重新整理副本。但当企业有几百万个文件、几百 PB 甚至 EB 级数据时,靠人手动倒数据已经不可行。IBM 认为,这类能力应该在存储端解决,而不是完全压给应用层。

 

企业如何应对涨价和供应链不确定性

 

“现在 IT 市场价格有点像期货市场。”吴磊说道。

 

在当前存储介质涨价和供应链波动背景下,IBM 认为,企业最应该做的是提升架构弹性,而不是简单追加采购。

 

吴磊表示,分层存储的前提,是企业要先对自己的数据做科学梳理:哪些是热数据,必须放在闪存上;哪些是温数据,可以放到对象存储或硬盘;哪些是冷数据,可以下沉到磁带;哪些数据要长期保留,哪些可以删除,哪些需要多副本。

 

他强调,企业的 ERP、CRM 等核心数据库如果需要双活,可能必须接受闪存成本。比如 100TB 数据库做完双活后,可能需要约 220TB 闪存容量,这类数据不能简单下沉,但可以通过压缩技术降低成本。

 

对于访问频次低、长期保存价值高的数据,则可以从闪存下沉到硬盘,再下沉到磁带。通过 IBM Storage Scale 背后的 GPFS 能力,上层应用可以无感访问这些数据,不需要知道数据物理上位于闪存、对象存储、云端还是磁带库。

 

金鑫以某科研用户为例介绍了存储策略选择。该用户每次实验只有两三秒,但多个探头每秒会产生约 20GB 实时数据,要求存储设备必须在极短时间内完成吞吐和落盘,并将数据保留 20 年。最终方案是先用 Storage Scale 或一体机完成高速吞吐,再通过 FPGA 过滤无用数据,剩余数据无感下沉到 TS4500 磁带库;夜间不工作时,再把数据取出用于训练,训练后重新归档。

 

“企业在数据和存储层面面临的最大风险是‘有钱买不着’。”吴磊直言,很多客户担心明年此时问题会更严峻。

 

对此,IBM 认为,企业能做的不是赌价格回落,而是通过分层架构提高资源效率,让数据流到它该去的地方。

 

在 GPU 卡买不到、硬盘交付周期拉长的情况下,企业可以把不需要高性能访问的数据下沉到磁带库,让有限的闪存和 GPU 资源服务最关键业务,尽可能熬过未来两三年的供给紧张周期。

 

面对需求上升和供给紧张,吴磊坦言,当前确实存在生产压力,但 IBM 不会简单把市场变化当作卖货机会,而是更希望帮助客户分析:哪些问题可以通过软件解决,哪些资源可以利旧,哪些设备确实需要新购,哪些部分可以与其他厂商设备配合。

 

在他看来,未来企业不能再用“头疼医头、脚疼医脚”的方式建设 AI 基础设施。AI 带来的数据爆发不是短期现象,而是未来两三年甚至更长期的结构性变化。企业需要趁这一轮危机,建立更灵活、更有弹性、也更可扩展的数据和存储架构。