写点什么

优化 AI 工作负载:谷歌云存储分层命名空间提升性能与可靠性

作者:Craig Risi

  • 2025-05-25
    北京
  • 本文字数:947 字

    阅读完需:约 3 分钟

大小:522.54K时长:02:58
优化AI工作负载:谷歌云存储分层命名空间提升性能与可靠性

2025 年 3 月 17 日,谷歌云在 Cloud Storage 中引入了分层命名空间(HNS)功能,通过改进数据组织、性能和可靠性来优化人工智能和机器学习工作负载。


AI/ML 过程,尤其在模型训练期间,涉及频繁的检查点操作以保存模型状态。传统的扁平命名空间存储系统通过单独重写或删除每个对象来处理文件夹重命名,这既耗时又容易出错。借助 HNS,Cloud Storage 现在支持文件夹级操作,从而实现更快、更可靠的检查点操作,从而实现更快、更可靠的检查点操作。根据其博客文章,谷歌的基准测试表明,与扁平存储桶相比,分层命名空间存储桶可以将检查点写入速度提高多达 20 倍。这一改进是通过新的 RenameFolder API 实现的,该 API 执行仅元数据操作,完成任务所需时间仅为扁平命名空间存储桶的一小部分。



谷歌还声称,实际应用已证明 HNS 的优势。例如,AssemblyAI报告称,在使用 HNS 与Cloud Storage FUSE结合时,其从谷歌云存储获得的吞吐量增加了 10 倍,从而使训练速度提高了 15 倍。


此外,HNS 通过提供优化的存储布局来增强性能,支持更高的 QPS(读写操作每秒查询次数)。这对于在大型集群上运行的 AI/ML 工作负载尤其有利,因为在这些集群中,同步的 I/O 操作可能会造成瓶颈。与扁平命名空间存储桶相比,分层命名空间存储桶提供的初始对象读写 QPS 可高达 8 倍,有助于加快启动速度并更好地利用计算资源。


谷歌工程高级总监 Jason Stevens 也表达了类似的看法,他指出:“GCS 的 HNS 加速了依赖文件系统(如文件夹重命名)的存储工作负载,从而提高了 AI 工作负载的效率。凭借高达 20 倍的检查点速度和高达 8 倍的 QPS,HNS 有助于最大限度地提高 AI/ML 管道中 GPU 和 TPU 的利用率。”


要在 GCS 中启用分层命名空间功能,必须在创建存储桶时进行配置,因为无法对现有存储桶追溯启用此功能。使用 gcloud 命令行界面(CLI),运行带有-enable-hierarchical-namespace标志的gcloud storage buckets create命令,并指定所需的存储桶名称和位置来完成此操作。或者,在谷歌云控制台中,导航到 Cloud Storage 部分,选择“创建存储桶”,然后在高级设置中勾选启用分层命名空间的选项,再完成其余设置。启用后,该存储桶因其支持模拟文件系统的文件夹、能够执行原子方式的重命名,并拥有更高的读写操作吞吐量,从而在 AI/ML 用例方面表现更优。


原文链接:

https://www.infoq.com/news/2025/05/google-cloud-ai-workflow/

2025-05-25 10:004968

评论

发布
暂无评论

如何将SeaTunnel MySQL-CDC与Databend 高效整合?格式与方案全解析

白鲸开源

华南会议|嘉宾阵容揭秘,邀您共享 2025 Altair 区域技术大会华南站

Altair RapidMiner

AI HPC 数字孪生 仿真 CAE

阿里云可观测 2025 年 5 月产品动态

阿里巴巴云原生

TTS走向拟人化时代:数据堂高质量语音资源全面支撑模型升级

数据堂

人工智能 数据 语音合成 语言模型 语音数据

飞书多维表格利用 Amazon Bedrock AI 能力赋能业务

亚马逊云科技 (Amazon Web Services)

中心化交易所(CEX)架构:高并发撮合引擎与合规安全体系

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 代币开发 代币开发公链开发

真金白银扶持新质商家,拼多多在为下一个十年布局

Alter

【HarmonyOS5】DevEco Studio 使用指南:代码阅读与编辑功能详解

颜颜yan_

HarmonyOS DevEco Studio Harmony5

超实用!手把手教你Dify版本升级

王磊

HPE SPP 2025.05.00.00 - HPE 服务器固件、驱动程序和系统软件包

sysin

SPP

Traefik 可观测性最佳实践

观测云

Traefik

使用DevEcoStudio 开发、编译鸿蒙 NEXT_APP 以及使用中文插件

飞龙AI

DevEco Studio HarmonyOS NEXT

一文掌握 HarmonyOS5 模拟器与真机调试技巧

颜颜yan_

架构 Harmony5

2025校招/社招Java八股文面试题库,横扫大厂后端岗

Geek_Yin

Java 程序员 java面试 Java面试题

Java集合必会14问(精选面试题整理)

Geek_Yin

Java 程序员 java面试 Java面试题

让通义灵码越用越懂你?使用记忆功能,打造你的专属编程搭档

阿里云云效

通义灵码

聚焦科学智能|第412期双清论坛“AI for Science:战略与行动”在京召开

ModelWhale

科学智能 AI4S

技术解读:国内外RPA产品技术特点及财务应用实现

Techinsight

RPA RPAxAI RPA Agent

去中心化交易所(DEX)架构:智能合约驱动与AMM算法创新

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

什么是低代码(Low Code)?低代码平台的组成要素包含有哪些?

优秀

低代码 低代码开发 低代码平台

让通义灵码越用越懂你?使用记忆功能,打造你的专属编程搭档

阿里巴巴云原生

中东AI迷雾里的中美棋局

脑极体

AI

24届软件开发-华为OD面经(Java开发岗)!

程序员高级码农

Java 程序员 面试

2025 必知!市面上那些超好用的 AI Agent,你用过几个?

Techinsight

AI+ AI 图像生成 +AI

币币/合约交易所架构:多资产支持与风控体系设计

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

【Gartner权威解答】:合格CTO必懂的开源软件十大热点问题

白鲸开源

当AI学会"看图说话":人类专家如何为视频描述生成器把关?

澳鹏Appen

AI 视频处理

从 AI Agent 到模型推理:端到端 AI 可观测实践

阿里巴巴云原生

豆包大模型1.6发布!更强模型、更高性价比

新消费日报

日志易 ELK 国产替代:自主可控+性能跃升,信创背景下的企业数字化转型优选

日志易

#日志易 #ELK #ELK国产化替代 #日志分析

【生产实践】Dolphinscheduler集群部署后Web控制台不能登录的问题解决了!

白鲸开源

开源 大数据任务调度 部署 Apache DolphinScheduler

优化AI工作负载:谷歌云存储分层命名空间提升性能与可靠性_Google_InfoQ精选文章