50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

优化 AI 工作负载:谷歌云存储分层命名空间提升性能与可靠性

作者:Craig Risi

  • 2025-05-25
    北京
  • 本文字数:947 字

    阅读完需:约 3 分钟

大小:522.54K时长:02:58
优化AI工作负载:谷歌云存储分层命名空间提升性能与可靠性

2025 年 3 月 17 日,谷歌云在 Cloud Storage 中引入了分层命名空间(HNS)功能,通过改进数据组织、性能和可靠性来优化人工智能和机器学习工作负载。


AI/ML 过程,尤其在模型训练期间,涉及频繁的检查点操作以保存模型状态。传统的扁平命名空间存储系统通过单独重写或删除每个对象来处理文件夹重命名,这既耗时又容易出错。借助 HNS,Cloud Storage 现在支持文件夹级操作,从而实现更快、更可靠的检查点操作,从而实现更快、更可靠的检查点操作。根据其博客文章,谷歌的基准测试表明,与扁平存储桶相比,分层命名空间存储桶可以将检查点写入速度提高多达 20 倍。这一改进是通过新的 RenameFolder API 实现的,该 API 执行仅元数据操作,完成任务所需时间仅为扁平命名空间存储桶的一小部分。



谷歌还声称,实际应用已证明 HNS 的优势。例如,AssemblyAI报告称,在使用 HNS 与Cloud Storage FUSE结合时,其从谷歌云存储获得的吞吐量增加了 10 倍,从而使训练速度提高了 15 倍。


此外,HNS 通过提供优化的存储布局来增强性能,支持更高的 QPS(读写操作每秒查询次数)。这对于在大型集群上运行的 AI/ML 工作负载尤其有利,因为在这些集群中,同步的 I/O 操作可能会造成瓶颈。与扁平命名空间存储桶相比,分层命名空间存储桶提供的初始对象读写 QPS 可高达 8 倍,有助于加快启动速度并更好地利用计算资源。


谷歌工程高级总监 Jason Stevens 也表达了类似的看法,他指出:“GCS 的 HNS 加速了依赖文件系统(如文件夹重命名)的存储工作负载,从而提高了 AI 工作负载的效率。凭借高达 20 倍的检查点速度和高达 8 倍的 QPS,HNS 有助于最大限度地提高 AI/ML 管道中 GPU 和 TPU 的利用率。”


要在 GCS 中启用分层命名空间功能,必须在创建存储桶时进行配置,因为无法对现有存储桶追溯启用此功能。使用 gcloud 命令行界面(CLI),运行带有-enable-hierarchical-namespace标志的gcloud storage buckets create命令,并指定所需的存储桶名称和位置来完成此操作。或者,在谷歌云控制台中,导航到 Cloud Storage 部分,选择“创建存储桶”,然后在高级设置中勾选启用分层命名空间的选项,再完成其余设置。启用后,该存储桶因其支持模拟文件系统的文件夹、能够执行原子方式的重命名,并拥有更高的读写操作吞吐量,从而在 AI/ML 用例方面表现更优。


原文链接:

https://www.infoq.com/news/2025/05/google-cloud-ai-workflow/

2025-05-25 10:005032

评论

发布
暂无评论
发现更多内容

Nginx 和 Nginx Plus 的区别

HoneyMoose

【Python】新华字典(bushi

謓泽

5月月更

位运算——Java语言描述

工程师日月

位运算 java 5月月更

2022 开源之夏 | Serverless Devs 陪你“变得更强”

阿里巴巴云原生

阿里云 云原生 Serverless Devs 开源之夏

成功转行测试,分享一下自己的经验【思维导图】初级/中级/高级测试工程师会哪些...

伤心的辣条

Python 程序人生 软件测试 自动化测试 测试开发

查找端口占用并关闭进程(windows)

liuzhen007

端口占用 5月月更

DevOps系列之 —— 持续规划与设计(二)规划与设计

若尘

DevOps 5月月更

Hexo+github搭建个人博客,并绑定域名

武师叔

5月月更

【愚公系列】2022年05月 二十三种设计模式(六)-适配器模式(Adapter Pattern)

愚公搬代码

5月月更

消息队列Kafka「检索组件」重磅上线!

阿里巴巴云原生

阿里云 云原生 消息队列Kafka

LabVIEW十六进制和字符类型转换

不脱发的程序猿

LabVIEW 进制转换

LabVIEW串口通信

不脱发的程序猿

LabVIEW 串口通信 数据通信

在线URL编码加密工具

入门小站

工具

MathType2022永久无限试用脚本程序

茶色酒

MathType

跟着动画学 Go 数据结构之二叉树

宇宙之一粟

数据结构 二叉树 Go 语言 5月月更

做SaaS的程序员们,是时候关注企业架构了

AI架构师汤师爷

企业架构 SaaS 架构设计 5月月更

技术打开感知世界:当感官数字化,会发生什么?

脑极体

Django 如何获取 Model 字段列表?

AlwaysBeta

django

测试人生 | 00后0经验应届毕业生拿下2线城市15W offer,好励志~

伤心的辣条

Python 程序人生 软件测试 自动化测试 接口测试

MathType全新免费版数学公式编辑器

茶色酒

MathType

[Day37]-[二叉树]- 找树左下角的值

方勇(gopher)

LeetCode 二叉树 数据结构算法

CentOS 8及以上版本配置IP的方法,你 get 了吗

伍工

Linux 网络

LabVIEW应用程序后台运行

不脱发的程序猿

LabVIEW

nginx配置系列(九)nginx中的防盗链

乌龟哥哥

5月月更

PyTorch 开发环境搭建

Emperor_LawD

PyTorch 5月月更

HarmonyOS 2迎来大更新:10个功能升级,这些机型建议更新!

科技汇

CleanMyMac有没有需要安装电脑?

茶色酒

CleanMyMacX

LabVIEW串口调试助手

不脱发的程序猿

LabVIEW 串口通信 数据通信 串口调试助手 VISA

《对线面试官》Java泛型

Java3y

Java 程序员 编程语言 java 5月月更

linux之autojump命令

入门小站

Linux

六、高可用之流控降级

穿过生命散发芬芳

5月月更 高可用设计

优化AI工作负载:谷歌云存储分层命名空间提升性能与可靠性_Google_InfoQ精选文章