
2025 年 3 月 17 日,谷歌云在 Cloud Storage 中引入了分层命名空间(HNS)功能,通过改进数据组织、性能和可靠性来优化人工智能和机器学习工作负载。
AI/ML 过程,尤其在模型训练期间,涉及频繁的检查点操作以保存模型状态。传统的扁平命名空间存储系统通过单独重写或删除每个对象来处理文件夹重命名,这既耗时又容易出错。借助 HNS,Cloud Storage 现在支持文件夹级操作,从而实现更快、更可靠的检查点操作,从而实现更快、更可靠的检查点操作。根据其博客文章,谷歌的基准测试表明,与扁平存储桶相比,分层命名空间存储桶可以将检查点写入速度提高多达 20 倍。这一改进是通过新的 RenameFolder API 实现的,该 API 执行仅元数据操作,完成任务所需时间仅为扁平命名空间存储桶的一小部分。
/filters:no_upscale()/news/2025/05/google-cloud-ai-workflow/en/resources/1checkpointing-1746877476583.png)
谷歌还声称,实际应用已证明 HNS 的优势。例如,AssemblyAI报告称,在使用 HNS 与Cloud Storage FUSE结合时,其从谷歌云存储获得的吞吐量增加了 10 倍,从而使训练速度提高了 15 倍。
此外,HNS 通过提供优化的存储布局来增强性能,支持更高的 QPS(读写操作每秒查询次数)。这对于在大型集群上运行的 AI/ML 工作负载尤其有利,因为在这些集群中,同步的 I/O 操作可能会造成瓶颈。与扁平命名空间存储桶相比,分层命名空间存储桶提供的初始对象读写 QPS 可高达 8 倍,有助于加快启动速度并更好地利用计算资源。
谷歌工程高级总监 Jason Stevens 也表达了类似的看法,他指出:“GCS 的 HNS 加速了依赖文件系统(如文件夹重命名)的存储工作负载,从而提高了 AI 工作负载的效率。凭借高达 20 倍的检查点速度和高达 8 倍的 QPS,HNS 有助于最大限度地提高 AI/ML 管道中 GPU 和 TPU 的利用率。”
要在 GCS 中启用分层命名空间功能,必须在创建存储桶时进行配置,因为无法对现有存储桶追溯启用此功能。使用 gcloud 命令行界面(CLI),运行带有-enable-hierarchical-namespace
标志的gcloud storage buckets create
命令,并指定所需的存储桶名称和位置来完成此操作。或者,在谷歌云控制台中,导航到 Cloud Storage 部分,选择“创建存储桶”,然后在高级设置中勾选启用分层命名空间的选项,再完成其余设置。启用后,该存储桶因其支持模拟文件系统的文件夹、能够执行原子方式的重命名,并拥有更高的读写操作吞吐量,从而在 AI/ML 用例方面表现更优。
原文链接:
https://www.infoq.com/news/2025/05/google-cloud-ai-workflow/
评论