在 2025 收官前,看清 Data + AI 的真实走向,点击查看 BUILD 大会精华版 了解详情
写点什么

⾼性能全闪并⾏⽂件系统的设计和实践|QCon 北京

  • 2025-03-30
    北京
  • 本文字数:1369 字

    阅读完需:约 4 分钟

⾼性能全闪并⾏⽂件系统的设计和实践|QCon 北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。


焱融科技 CTO 张文涛已确认出席并发表题为《高性能全闪并行文件系统的设计和实践》的主题分享。在深度学习领域中,数据是基⽯,算⼒是引擎。训练⼀个模型,需要⼤量的数据和算⼒ ,并且需要反复迭代和验证才能得到想要的模型。 为了提升训练效率,缩短训练时间,所有组件之间都需要快速响应,这其中就包括了计算和存储之间的交互。对于⼀个 AI 系统⽽⾔,模型的能⼒随着模型尺⼨和训练数据的增加⽽显著提升,但随着数据集和模型规模不断增加,训练任务载⼊训练数据所消耗的时间越来越⻓,进⽽影响了训练效率,缓慢的 IO 严重拖累 GPU 的强⼤算⼒。在本次演讲中,张文涛将介绍焱融的全闪⽂件存储的整体架构和技术细节,并逐⼀介绍 YRCloudFile 是如何解决 AI 训练过程中遇到的海量⼩⽂件访问慢、 带宽峰值、 内存访问瓶颈和多任务并发访问性能⼲扰等问题。


张文涛毕业于华中科技大学计算机专业硕士,专注于分布式存储领域,拥有超过 15 年的大规模公有云存储架构开发和 AI 存储架构设计,参与主导了 YRCloudFile 高性能分布式文件存储系统从 0 到 1 的设计研发及产品落地工作,并在 AI 场景应用落地方面具备一定的实战经验。在 AI 及高算力场景项目交付上,有着丰富的整体架构设计和性能优化经验。中国智能计算产业联盟专委会技术专家组,上海 TGO 鲲鹏会成员。他在本次会议的详细演讲内容如下:


演讲提纲

1. AI 训练的 IO 特点和存储难点

  • 海量数据的存储、查询和访问

  • 训练的 IO 读取和 Checkpoint 的保存性能

  • 多打⼀的⽹络拥塞问题 

2. YRCloudFile 的整体解析

  • YRCloudFile 整体架构

  • 数据并⾏访问,⾼性能存储的核⼼

  • 分布式元数据集群 ,⽀撑千亿级⽂件系统的关键

  • 缓存和数据⼀致性策略

  • 多租⼾隔离和访问流控

  • ⾼级运维特性

3.  典型案例

4.  总结和未来展望


您认为,这样的技术在实践过程中有哪些痛点?

  • 为了提高缓存的性能,弱化了数据的一致性语义,从强一致性弱化到 open-to-close 的一致性语义

  • 性能、可靠性和成本是一个不可能三角,为了尽可能提升性能和降低成本,我们选择采用 2 副本的方式,提升写性能的同时也极大地降低了成本,在 AI 存储以读为主的场景中,这个选择是非常合适的,但是在传统存储场景中就会面临可靠性不足的问题


演讲亮点

  • 分享 YRCloudFile ⾼性能⽂件系统的核⼼技术

  • 分享在 AI 训练场景中遇到的疑难问题和解决⽅案

  • 分享焱融对未来存储发展的思考


听众受益

  • 了解 AI 训练对存储的需求

  • 对 AI 存储有更深⼊的了解

  • 了解性能优化的常见⼿段


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


报名或了解详情可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀志愿者加入,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088


2025-03-30 16:086464

评论

发布
暂无评论
发现更多内容

无人不识又无人不迷糊的this

华为云开发者联盟

Java JavaScript 开发 华为云 华为云开发者联盟

有了这 4 款脚本工具, 再也不怕写烂SQL了!!!

Java技术精选

如何培养高质量应用型医学人才, “课-训-赛”育人才系列第二场直播活动圆满结束

ModelWhale

人才培养 数据科学 复合型人才 医学 应用型人才

NFTScan 正式上线 Polygon zkEVM NFTScan 浏览器和 NFT API 数据服务

NFT Research

NFT\ NFTScan

How Big Data Works

Jackchang234987

我们所面临的云原生安全问题

德迅云安全杨德俊

软件测试学习笔记丨Allure2报告中添加用例支持tags标签

测试人

软件测试

Go代码优化实用指南

俞凡

golang

野心、梦想与科幻——浅谈外星殖民与软件工程

博文视点Broadview

网心科技入选“2023年广东省名优高新技术产品”名单

网心科技

云计算 边缘计算 网心科技

基于 NVIDIA Megatron-Core 的 MoE LLM 实现和训练优化

阿里云大数据AI技术

人工智能 模型训练 大模型 LLM

合辑下载 | MatrixOne 与 MySQL 全面对比

MatrixOrigin

数据库 分布式 云原生

macOS Sonoma 14.4.1 (23E224) 正式版发布,ISO、IPSW、PKG 下载

sysin

macos Sonoma macOS Sonoma

一文带你完整了解Go语言IO基础库

百度Geek说

go语言

使用云手机提升WhatsApp使用体验

Ogcloud

云手机 海外云手机 云手机海外版 国外云手机 电商云手机

网心科技入选“2023年中国云生态创新应用技术产品”

网心科技

云计算 边缘计算 网心科技

全面解析 MessagePack:简介及使用技巧

Apifox

json 程序员 前端 后端 MessagePack

AutoMQ 社区双周精选第九期(2024.03.11~2024.03.22)

AutoMQ

大数据 kafka 云原生 AutoMQ

与鲸同行,智领未来!和鲸科技高校市场渠道招募启动会顺利召开

ModelWhale

人工智能 软件 数据科学 渠道招募 高校市场

GPU推理加速与大规模上下文处理

百度开发者中心

人工智能 大模型

⾼性能全闪并⾏⽂件系统的设计和实践|QCon 北京_大数据_QCon全球软件开发大会_InfoQ精选文章