AI实践哪家强?来 AICon, 解锁技术前沿,探寻产业新机! 了解详情
写点什么

优化 AI 工作负载:谷歌云存储分层命名空间提升性能与可靠性

作者:Craig Risi

  • 2025-05-25
    北京
  • 本文字数:947 字

    阅读完需:约 3 分钟

大小:522.54K时长:02:58
优化AI工作负载:谷歌云存储分层命名空间提升性能与可靠性

2025 年 3 月 17 日,谷歌云在 Cloud Storage 中引入了分层命名空间(HNS)功能,通过改进数据组织、性能和可靠性来优化人工智能和机器学习工作负载。


AI/ML 过程,尤其在模型训练期间,涉及频繁的检查点操作以保存模型状态。传统的扁平命名空间存储系统通过单独重写或删除每个对象来处理文件夹重命名,这既耗时又容易出错。借助 HNS,Cloud Storage 现在支持文件夹级操作,从而实现更快、更可靠的检查点操作,从而实现更快、更可靠的检查点操作。根据其博客文章,谷歌的基准测试表明,与扁平存储桶相比,分层命名空间存储桶可以将检查点写入速度提高多达 20 倍。这一改进是通过新的 RenameFolder API 实现的,该 API 执行仅元数据操作,完成任务所需时间仅为扁平命名空间存储桶的一小部分。



谷歌还声称,实际应用已证明 HNS 的优势。例如,AssemblyAI报告称,在使用 HNS 与Cloud Storage FUSE结合时,其从谷歌云存储获得的吞吐量增加了 10 倍,从而使训练速度提高了 15 倍。


此外,HNS 通过提供优化的存储布局来增强性能,支持更高的 QPS(读写操作每秒查询次数)。这对于在大型集群上运行的 AI/ML 工作负载尤其有利,因为在这些集群中,同步的 I/O 操作可能会造成瓶颈。与扁平命名空间存储桶相比,分层命名空间存储桶提供的初始对象读写 QPS 可高达 8 倍,有助于加快启动速度并更好地利用计算资源。


谷歌工程高级总监 Jason Stevens 也表达了类似的看法,他指出:“GCS 的 HNS 加速了依赖文件系统(如文件夹重命名)的存储工作负载,从而提高了 AI 工作负载的效率。凭借高达 20 倍的检查点速度和高达 8 倍的 QPS,HNS 有助于最大限度地提高 AI/ML 管道中 GPU 和 TPU 的利用率。”


要在 GCS 中启用分层命名空间功能,必须在创建存储桶时进行配置,因为无法对现有存储桶追溯启用此功能。使用 gcloud 命令行界面(CLI),运行带有-enable-hierarchical-namespace标志的gcloud storage buckets create命令,并指定所需的存储桶名称和位置来完成此操作。或者,在谷歌云控制台中,导航到 Cloud Storage 部分,选择“创建存储桶”,然后在高级设置中勾选启用分层命名空间的选项,再完成其余设置。启用后,该存储桶因其支持模拟文件系统的文件夹、能够执行原子方式的重命名,并拥有更高的读写操作吞吐量,从而在 AI/ML 用例方面表现更优。


原文链接:

https://www.infoq.com/news/2025/05/google-cloud-ai-workflow/

2025-05-25 10:004894

评论

发布
暂无评论

YashanDB ST_ASBINARY函数

YashanDB

通义视觉负责人薄列峰离职;ElevenLabs 开源 Next.js 音频入门套件,几分钟搭建对话式 AI丨日报

声网

观测云:安全、可信赖的监控观测云服务

观测云

安全

英特尔以系统级代工模式促进生态协同,助力客户创新

E科讯

YashanDB|使用 Kettle 同步 PostgreSQL 数据时报错:pg_hba.conf 无法识别连接?

数据库砖家

数据库

YashanDB GEOMETRYTYPE函数

YashanDB

DApp开发:开启去中心化应用新时代

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

YashanDB EXP函数

YashanDB

YashanDB ST_AREA函数

YashanDB

YashanDB|跑批性能调优必看:这几个参数设置请注意

数据库砖家

数据库

YashanDB 知识库|MySQL 的 GROUP BY 语句迁移到崖山时报错?原来是这个规范不同!

数据库砖家

数据库

YashanDB|UNDO 表空间持续增长怎么处理?一文教你排查+优化

数据库砖家

数据库

区块链内容创作全攻略:海报、白皮书与视频的视觉化革命

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

YashanDB EMPTY_CLOB函数

YashanDB

Arthas jad(字节码文件反编译成源代码 )

刘大猫

监控 Arthas 监控工具 jad 字节码文件

故障定位系列-容器CPU问题引起的故障如何快速排查

乘云数字DataBuff

故障定位 SRE 智能运维 故障排查/诊断

Mint Blockchain 与 Chainlink 达成战略合作:赋能跨链创新

NFT Research

blockchain web3

YashanDB FLOOR函数

YashanDB

YashanDB EXTRACT函数

YashanDB

YashanDB FIRST_VALUE函数

YashanDB

YashanDB GET_TYPE_NAME函数

YashanDB

YashanDB 知识库|MySQL 迁移后 CHAR 字段多出空格?问题可能出在这里

数据库砖家

数据库

YashanDB|Kettle 同步大表报错 “无法创建 Java 虚拟机”?别忘了调整内存

数据库砖家

数据库

YashanDB 知识库|如何判断表空间是否启用了加密?

数据库砖家

数据库

YashanDB ENCRYPT_AES128函数

YashanDB

YashanDB|崖山共享集群(YAC):从怀疑到认可,技术细节决定产品成色

数据库砖家

数据库

DeFi开发系统软件开发:技术架构与生态重构

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

英特尔持续推进核心制程和先进封装技术创新,分享最新进展

E科讯

YashanDB|大整数插入报错 YAS-00013?可能是数据类型没对上

数据库砖家

数据库

公链钱包开发:技术逻辑与产品设计实践

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 代币开发 交易所开发公链开发

YashanDB FIND_IN_SET函数

YashanDB

优化AI工作负载:谷歌云存储分层命名空间提升性能与可靠性_Google_InfoQ精选文章