燃爆上海 5·23-24,AICon 大模型实战风暴,50+ 干货一网打尽,100% 日程上线 了解详情
写点什么

如何加速模型训练并消除云上的 I/O 瓶颈

  • 2023-10-11
    北京
  • 本文字数:2211 字

    阅读完需:约 7 分钟

如何加速模型训练并消除云上的 I/O 瓶颈

我是 JuiceFS 项目的合伙人苏锐。JuiceFS 是一个为云环境设计的分布式文件系统,广泛应用于 AI 模型训练和推理阶段的数据处理,积累了较多实际场景的经验。

一、AI 应用的存储挑战


自 2019 年起,深度学习推动了计算机视觉(CV)领域的快速发展,典型应用包括人脸识别和自动驾驶。随着 CV 数据集规模的持续增长,公开数据集最大仅约 500 GB、900 万张图片,而实际业务中的自动驾驶训练集可达到数千万张图片,总量在 50 亿至 150 亿张之间。


如此规模带来了两个显著挑战:

  1. 海量小文件管理困难;

  2. 模型数据、Checkpoint 等数据体量大幅上升,推动训练从单机向多机演进,单机存储已无法满足需求,分布式存储成为刚需。


在大语言模型的发展中,如 GPT-3 的原始数据为 45 TB,而多模态的 GPT-4 迅速增长至 1 PB。此外,训练过程中需要定期保存显存状态作为 checkpoint,应对系统故障恢复,这进一步加剧了存储压力。

二、存储选型分析


目前主流的云上存储产品分为三类:

1. 块存储(Block Storage)

块存储包括云盘(如 AWS 的 EBS)和本地 SSD、NVMe 裸盘。其优势在于低时延和 POSIX 兼容,适用于单机环境。然而,容量和吞吐受限于单盘上限,难以满足当前 AI 训练的高并发大数据需求。

2. 对象存储(Object Storage)

对象存储随着公有云发展而普及,如 S3、MinIO、Ceph RGW 等。其优势是弹性扩展和极低成本,适合归档和点查访问。但由于使用 HTTP API 接口,缺乏 POSIX 兼容,存在如无法追加写、重命名性能差等问题,不适合 AI 训练等复杂文件操作需求。


对象存储以 Key-Value 模型为基础,结构上为扁平命名空间(bucket),缺乏文件系统的层级结构。因此,在目录遍历、追加写、原子重命名等方面的性能远不如文件系统,差异可能达到百倍。

3. 文件存储(File Storage)

文件存储在公有云中如 EFS、NAS,开源产品如 CephFS、GlusterFS。具备多节点共享访问、POSIX 兼容性,适合科学计算、AI 训练、大数据分析等复杂读写需求。相比对象存储,提供更好的功能完备性,但在性能和弹性方面依然存在挑战。

三、文件系统的发展演进


第一代企业级文件系统如 EMC、NetApp、OceanStore 多为软硬件一体方案,存在扩展性限制,供应链周期长。


2005 年 Google 发布 GFS 论文,首次提出基于标准硬件构建分布式文件系统的理念。随后涌现出一批软件定义存储系统,如 HDFS、Ceph、GlusterFS、Lustre、BeeGFS 等。这些系统多为面向物理机房设计,不适配云环境弹性能力。

四、JuiceFS 的设计理念


JuiceFS 于 2017 年开始研发,目标是为云环境设计一个具备弹性、低成本、强一致性、POSIX 兼容的文件系统,同时继承对象存储的成本优势。


我们在架构上将元数据引擎与数据存储解耦,并采用插件式设计:

●       数据存储层默认使用云上的对象存储,已支持 40 多种服务;

●       元数据层支持 Redis、关系型数据库、分布式 KV,以及我们自研的高可用引擎;

●       客户端通过统一的 API 支持 POSIX、HDFS、S3,提升兼容性;

●       与 Kubernetes 集成支持 CSI Driver 和 Sidecar 两种模式。

五、AI 训练中的 I/O 瓶颈本质

硬件提供了性能的上限。例如单块 NVMe 盘提供 3 GB/s 吞吐量,软件只能在此上限内尽量聚合性能。

在传统分布式文件系统中,数据冗余和副本机制会导致热点盘吞吐被多个 Workload 竞争,进而限制整体 I/O 性能。为提升吞吐,只能扩展更多磁盘,造成容量和性能绑定。


例如,在某些金融或量化交易场景,数据集体积小但访问频率极高,迫使系统“为性能加盘”,而非“为容量加盘”。这在现有文件系统下是一大难题。


此外,磁盘扩容常需数据迁移,运维成本高,影响计算任务。传统方案中,用户常采用冷热分层,将冷数据放入对象存储,热数据再迁入高性能文件系统。这种方式增加数据搬迁和资源协调成本,不利于弹性资源管理。

六、JuiceFS 如何解耦容量与性能

我们通过在客户端引入透明 Cache 层,实现容量与性能的解耦:

●       数据永久保存在对象存储中;

●       热数据通过客户端 Cache 自动加载至本地 NVMe 或共享缓存池;

●       缓存按需扩缩,支持命中策略调整(如按业务、部门划分);

●       缓存节点可动态上线/下线,不影响数据一致性与可靠性;

●       支持 Kubernetes CSI 和 Sidecar 模式部署,适配不同云原生环境。

七、实践案例

案例一:乾象投资

量化基金业务,数据量约 100 TB,但访问并发极高。他们使用 CNCF 项目 Fluid 管理 JuiceFS 缓存,实现自动扩缩容。通过对比测试,传统分布式存储在高并发下加载时间显著增加,而 JuiceFS 能保持稳定性能。


在实际环境中,任务成本从 90 元下降至 8 元,优化超过 10 倍,使用环境为阿里云的 Serverless K8s。

案例二:自动驾驶企业

管理超过 150 亿小文件(平均 100 KB),传统文件系统如 HDFS 和 CephFS 难以支撑。


在生产环境中,JuiceFS 提供 250 GB/s 吞吐与 30 万 QPS,数据持久层部署于一侧机房的对象存储,另一侧通过缓存与元数据镜像实现 1000 公里跨城高性能访问,满足异地模型训练需求。

八、总结

在 AI 训练场景下,数据集和模型规模快速增长,对存储提出了更高的吞吐、扩展性和弹性要求。


传统文件系统因性能与容量耦合限制,难以满足现代训练需求。JuiceFS 通过将对象存储与缓存机制结合,在提供强一致性和 POSIX 兼容的同时,实现了容量与性能的解耦。


此外,对于异地、多云、混合云环境,JuiceFS 支持自动数据镜像,帮助用户高效访问分布式数据资源。


感谢大家的聆听。

 

2023-10-11 17:0059

评论

发布
暂无评论

用c语言写一个目录遍历程序

linux大本营

C语言 目录遍历

容量成本性能全都要有, Redis 容量版 PegaDB 设计与实践

百度开发者中心

云数据库 百度智能云

电子签赛道驶向深水区,法大大以数智化引领创新

ToB行业头条

使用tc+iptables对指定的socket进行限速

linux大本营

TCP socket 网络 iptables

spdk里是怎么运行nvmf-tgt的

linux大本营

spdk

数说热点|米哈游新作《崩坏:星穹铁道》今日公测,能否再现原神奇迹?

MobTech袤博科技

第五期(2022-2023)传统行业云原生技术落地调研报告——金融篇

York

容器 DevOps 微服务 云原生 金融

有奖征文丨【玩转Cloud Studio】第二季来啦!

CODING DevOps

Cloud Studio 云端IDE 在线编程 有奖征文 活动推荐

《雄安新区2022年大数据研究报告》发布

百度开发者中心

智慧城市

从 Milvus 2.2 到 2.2.6,我们是如何持续稳定升级的

Zilliz

非结构化数据 Milvus 向量数据库

对数据库中存储的程序进行现代化改造,以使用 Amazon Aurora PostgreSQL 联合查询、pg_cron 和 Amazon Lambda

亚马逊云科技 (Amazon Web Services)

如何使用 SCP 和 Rsync 在 Linux 中传输文件

wljslmz

Linux 三周年连更

来字节跳动实习,有机会发Nature子刊

字节跳动技术范儿

c++单例模式的所有面经

linux大本营

设计模式 单例模式 C++

KubeVela:一场向应用交付标准的“冲锋”

RRLL

阿里云 数据湖 云原生 KubeVela 应用交付

【Python实战】Python采集度贴吧排行榜

BROKEN

三周年连更

人工智能训练数据集:基础与发展

数据堂

5.10版本linux内核的使用slub的kmem_cache_init函数解析

linux大本营

内存管理 Linux内核 slub slab

什么是文件传输,介绍文件传输的发展进程

镭速

什么是Java 异常?如何处理异常?

Java架构历程

Java 三周年连更

c++17使用多线程编程的时候在编译时要怎么处理

linux大本营

多线程 C++

YashanDB V22.2重磅发布!七大亮点带你了解新特性

YashanDB

数据库

重磅!阿里云云原生合作伙伴计划全新升级:加码核心权益,与伙伴共赢新未来

阿里巴巴云原生

阿里云 云原生 生态合作

百度与用友网络签署战略合作

百度开发者中心

智能制造 文心一言

当生成式AI照进医疗,医患关系将何去何从?

白洞计划

医疗

读《分布式商业》有感

后台技术汇

分布式 三周年连更

eBPF的发展演进---从石器时代到成为神(三)

统信软件

操作系统 Linux内核

一个有趣的图片加载效果

南城FE

CSS 前端 动画 图片

linux设置虚拟IP

linux大本营

Linux 网络 IP地址

云BI产品瓴羊Quick BI,为企业数字化转型保驾护航

巷子

如何加速模型训练并消除云上的 I/O 瓶颈_云原生_苏锐_InfoQ精选文章