写点什么

优化 AI 工作负载:谷歌云存储分层命名空间提升性能与可靠性

作者:Craig Risi

  • 2025-05-25
    北京
  • 本文字数:947 字

    阅读完需:约 3 分钟

大小:522.54K时长:02:58
优化AI工作负载:谷歌云存储分层命名空间提升性能与可靠性

2025 年 3 月 17 日,谷歌云在 Cloud Storage 中引入了分层命名空间(HNS)功能,通过改进数据组织、性能和可靠性来优化人工智能和机器学习工作负载。


AI/ML 过程,尤其在模型训练期间,涉及频繁的检查点操作以保存模型状态。传统的扁平命名空间存储系统通过单独重写或删除每个对象来处理文件夹重命名,这既耗时又容易出错。借助 HNS,Cloud Storage 现在支持文件夹级操作,从而实现更快、更可靠的检查点操作,从而实现更快、更可靠的检查点操作。根据其博客文章,谷歌的基准测试表明,与扁平存储桶相比,分层命名空间存储桶可以将检查点写入速度提高多达 20 倍。这一改进是通过新的 RenameFolder API 实现的,该 API 执行仅元数据操作,完成任务所需时间仅为扁平命名空间存储桶的一小部分。



谷歌还声称,实际应用已证明 HNS 的优势。例如,AssemblyAI报告称,在使用 HNS 与Cloud Storage FUSE结合时,其从谷歌云存储获得的吞吐量增加了 10 倍,从而使训练速度提高了 15 倍。


此外,HNS 通过提供优化的存储布局来增强性能,支持更高的 QPS(读写操作每秒查询次数)。这对于在大型集群上运行的 AI/ML 工作负载尤其有利,因为在这些集群中,同步的 I/O 操作可能会造成瓶颈。与扁平命名空间存储桶相比,分层命名空间存储桶提供的初始对象读写 QPS 可高达 8 倍,有助于加快启动速度并更好地利用计算资源。


谷歌工程高级总监 Jason Stevens 也表达了类似的看法,他指出:“GCS 的 HNS 加速了依赖文件系统(如文件夹重命名)的存储工作负载,从而提高了 AI 工作负载的效率。凭借高达 20 倍的检查点速度和高达 8 倍的 QPS,HNS 有助于最大限度地提高 AI/ML 管道中 GPU 和 TPU 的利用率。”


要在 GCS 中启用分层命名空间功能,必须在创建存储桶时进行配置,因为无法对现有存储桶追溯启用此功能。使用 gcloud 命令行界面(CLI),运行带有-enable-hierarchical-namespace标志的gcloud storage buckets create命令,并指定所需的存储桶名称和位置来完成此操作。或者,在谷歌云控制台中,导航到 Cloud Storage 部分,选择“创建存储桶”,然后在高级设置中勾选启用分层命名空间的选项,再完成其余设置。启用后,该存储桶因其支持模拟文件系统的文件夹、能够执行原子方式的重命名,并拥有更高的读写操作吞吐量,从而在 AI/ML 用例方面表现更优。


原文链接:

https://www.infoq.com/news/2025/05/google-cloud-ai-workflow/

2025-05-25 10:002

评论

发布
暂无评论

如何在页面中监听“不存在”的 DOM 节点

茶无味的一天

JavaScript DOM web api 水印 MutationObserver

数字化转型框架如何搭建?

优秀

数字化转型

玩转服务器之Docker篇:10分钟学会搭建 Docker 环境

京东科技开发者

云计算 容器 Docker 镜像 企业号 4 月 PK 榜

Backgrounds——为所有人准备的mac动态壁纸,让桌面更生动

互联网搬砖工作者

白盒的测试方法

测吧(北京)科技有限公司

测试

Kubernetes网络策略之详解

乌龟哥哥

三周年连更

中国边缘云公有云服务市场 Top2,百度智能云让智算无处不在

百度开发者中心

云计算 #百度智能云# 边缘云

企业级无代码平台,「重塑」软件生产关系

ToB行业头条

瓴羊quickbi工具免费体验30天,零基础上手企业数据更直观

对不起该用户已成仙‖

华为阅读发布最新进展,月活用户超1亿,大力发展精品阅读

最新动态

聊聊 CSS 隐藏元素的 10 种实用方法

茶无味的一天

CSS 隐藏元素

使用depay信用卡开通chatGPT付费API

石云升

AI ChatGPT 三周年连更

详解数据结构中栈的定义和操作

华为云开发者联盟

数据结构 开发 华为云 华为云开发者联盟 企业号 4 月 PK 榜

今晚直播 | 思码逸陆春蕊:面对研发效能度量落地难点,如何让数据说话?

思码逸研发效能

研发效能

从 Dev 和 Ops 视角出发,聊聊 DevSecOps 的 What / Why / How

极狐GitLab

DevOps 安全 DevSecOps 安全左移 安全合规

重新学习Java线程原语

码语者

Java 线程

MySQL进阶之道,MySql性能实战源码+笔记+项目实战

程序知音

Java MySQL 数据库 后端

带你掌握数仓的作业级监控TopSQL

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 4 月 PK 榜

深度学习基础入门篇[六]:模型调优,学习率设置(Warm Up、loss自适应衰减等),batch size调优技巧,基于方差放缩初始化方法。

汀丶人工智能

人工智能 深度学习 学习率 warmup batchsize

轻松玩转小程序,这样做让你拥有2亿用户

加入高科技仿生人

小程序 低代码 小程序制作 小程序开发

矢量图片转换工具:Vector Magic 免激活版

真大的脸盆

Mac Mac 软件 图片格式转换 图片格式

Gartner发布中国容器管理平台供应商识别指南,灵雀云实力入选

York

容器 云原生 系统架构 研究报告 平台选型

常用测试策略与测试手段

测吧(北京)科技有限公司

测试发开

户外led电子屏未来发展趋势

Dylan

技术 LED显示屏 户外LED显示屏

微服务 Spring Boot 整合Redis 实战开发解决高并发数据缓存

Bug终结者

redis缓存 三周年连更

电子元器件“切开后”,原来是这样子的!

元器件秋姐

科普 三极管 元器件 二极管 电感

如何从1到99做好产品 | 得物技术

得物技术

“亮相”欧洲!TDengine 在 KubeCon 与开发者探讨云原生与数据库的技术结合

TDengine

tdengine 时序数据库 KubeCON

小技巧:如何让 Windows 应用程序在 Parallels Desktop 中启动得更快

互联网搬砖工作者

OpenHarmony开发者大会举办,OpenHarmony项目群授牌30家捐赠单位及个人

最新动态

熬夜肝到秃头!阿里顶配级Spring Security笔记

程序知音

Java spring 后端 spring security java架构

优化AI工作负载:谷歌云存储分层命名空间提升性能与可靠性_Google_InfoQ精选文章