Cloudera：备份与安全，本质是AI经济学问题

世界备份日和世界云安全日临近，是时候打破一个迷思了：备份不是一种可以无限扩容的保险，而是一个需要精打细算的经济学问题。

IDC 预测，到 2028 年全球数据量将达 393.9 ZB，中国到 2029 年将增至 136.12 ZB。这个数字背后的潜台词是：每新增一个需要保留的数据集，企业就要为存储、备份、合规以及下游 AI 质量修复买单。当"韧性"演变成 AI 经济学问题，答案不再是"多备点"，而是"备得对"。

治理先于保护，停止为劣质数据支付双重成本

很多企业的韧性项目之所以耗资巨大、难以为继，根源在于缺乏清晰的数据保留策略。没有治理，所有数据都被视为同等重要，备份环境无限膨胀，恢复优先级一片模糊。

有效的韧性治理从"看清家底"开始：企业必须掌握数据资产的全貌、使用方式和恢复要求。基于业务影响的分级分类，是设置保护级别的前提——关键数据配对顶级保护，非关键数据采用低成本策略或缩短保留期。

这不是技术问题，是业务决策。数据保护级别的界定，取决于监管处罚、合同义务、运营风险、声誉损失这些硬指标。当治理成为决策依据，数据保护就从默认的 IT 配置，变成与业务风险精准匹配的审慎选择。

《2025 埃森哲中国企业数字化转型指数》显示，仅 29%的中国企业认为自身数据质量优异。但讽刺的是，企业仍在持续存储和保护大量低质量数据。

这种"以防万一"的备份策略，会积累大量几乎没有运营价值的信息。后果远不止基础设施成本扩大——在 AI 驱动的工作流中，治理不善的数据直接流入分析管道和模型，引入噪声、降低洞察可靠性，形成恶性循环：企业先花资源存储和保护低价值数据，再花更多资源修复这些数据在下游引发的问题。

这是典型的双重付费：一边为冗余数据买单，一边为它制造的次生灾害买单。

治理策略的价值，必须在生产环境中经受考验。定期进行数据恢复与灾难恢复测试，是验证保护层级是否符合业务优先级的唯一方式。

测试的意义在于揭示真相：某些已备份的数据在恢复中毫无用处，某些系统需要比预期更高等级的保护，数据管道之间隐藏的依赖关系需要按正确顺序恢复。这些洞察能帮助企业在不恢复全部数据的情况下，尽快恢复可信运营。

企业领导应该盯住一组核心指标：灾难恢复计划是否定期测试、恢复时间目标是否明确、测试结果是否持续达标、每轮测试后是否落实改进。这将形成一个强化治理的反馈闭环，让备份环境保持高效并与业务需求持续对齐。

在混合云和多云环境中，缺乏控制的数据复制会成倍增加需要保护的数据量。数据分散在过多系统、副本和未受控路径中，不仅抬升安全治理成本，还会直接推高 AI 应用的总体成本。

因此，将数据迁移至第三方 SaaS 平台或外部服务，绝不能是权宜之计，而必须是一项深思熟虑的治理决策。一旦数据离开受控环境，可见性下降、控制措施更难执行、恢复工作更难协调——这些隐形成本往往被严重低估。

跨环境的一致性同样关键。本地与云平台需要统一治理，避免因碎片化管理导致的数据集重复和备份臃肿。Iceberg REST Catalog 等开放标准，通过提升引擎和数据目录的互操作性，可以减少仅为跨平台使用而进行的数据复制。

一个显而易见的结论是，韧性不是堆出来的，是算出来的。

世界备份日与世界云安全日应该提醒企业：现代韧性不在于对数据的不断复制或控制措施的堆砌，而在于通过有针对性、受管控的决策，避免为冗余、过时、琐碎甚至未知的数据支付不断增长的费用。

治理机制能够优化备份支出、缩短恢复时间并提升 AI 可靠性。借助这一机制，企业将不再为那些不了解、不需要、甚至一开始就不应该保留的数据支付高昂保护成本。

韧性，本质上是一种资源配置的艺术。

作者简介：

刘隶放，Cloudera 大中华区技术总监