2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

不用英伟达严选?DeepSeek 为何自研高性能文件系统 3FS,挑战行业“标准答案”

  • 2025-03-01
    北京
  • 本文字数:2679 字

    阅读完需:约 9 分钟

大小:1.33M时长:07:43
不用英伟达严选?DeepSeek 为何自研高性能文件系统 3FS,挑战行业“标准答案”

DeepSeek 文件系统背后的“王炸”到底是什么?

 

2 月 28 日,DeepSeek 开源周第五日迎来了 Fire-Flyer File System (3FS):一套基于现代 SSD 与 RDMA 网络全部带宽的并行文件系统。

 

按照官方的说法,3FS 专为应对 AI 训练和推理工作负载的挑战而设计,将为 DeepSeek 的数据访问全程加速。它以高吞吐、低延迟和强一致性为核心设计理念,为分布式应用开发者提供了一个简化的共享存储层。

 

在具体应用中,3FS 涵盖了从数据准备(将数据分析管线的输出组织成分层目录并高效管理海量中间结果)、数据加载(无需额外预取或洗牌数据集,支持跨节点随机访问训练样本)、检查点(提供并行高吞吐的检查点保存与重载)到推理阶段的 KVCache(为大规模语言模型推理提供高吞吐且容量更大的缓存)等多种关键环节。据悉,在 V3 与 R1 版本模型中,3FS 正是通过在这些环节的出色表现,大幅提升了训练与推理过程的效率与稳定性

 

为满足这些高负载需求,3FS 在架构设计上具备以下核心特性与优势:

  • 分离式架构:整合数千块 SSD 与数百个存储节点的网络带宽,无需考虑数据局部性即可完成大规模并行存储访问。

  • 强一致性:利用链复制与分配式查询(CRAQ)实现强一致性,简化了上层应用的开发难度。

  • 文件接口:基于成熟的元数据服务与事务型键值存储(如 FoundationDB),提供通用而熟悉的文件 API,无需额外学习新协议。

 

性能表现方面,在一个由 180 个存储节点组成的大规模集群中(每节点含 2×200Gbps InfiniBand 网卡与 16 块 14TiB NVMe SSD),3FS 在同时运行训练任务的背景流量下,依然实现了约 6.6 TiB/s 的整体读取吞吐量



在大型 3FS 集群上进行读取压力测试的吞吐情况。

 

同时,其 GraySort 基准测试突破 3.66 TiB/分钟。在由 25 个存储节点和 50 个计算节点构成的集群上,3FS 通过两阶段(基于键前缀位的 Shuffle 分区 + 分区内排序)读取/写入数据,完成了对 110.5 TiB 数据、8192 个分区的排序,仅耗时 30 分钟 14 秒,平均吞吐量达到 3.66 TiB/分钟。




在推理场景下,为优化大规模语言模型(LLM)的 KVCache 查找速度,3FS 提供了高吞吐、强一致性的数据访问能力,单个客户端节点峰值可达 40+ GiB/s,同时支持高效的垃圾回收操作。




DeepSeek 3FS 的项目地址:https://github.com/deepseek-ai/3FS

 

在 4 月 10-12 日将于北京举办的 Qcon 全球软件开发大会上,我们特别设置了【智能时代的存储架构】专题。该专题邀请了来自美团、百度、炎融、蚂蚁等专家,深入探讨深入探讨大模型引领的智能时代下,分布式存储如何与其互相促进,并更好地做出架构迭代、创新。

 

查看大会日程解锁更多精彩内容:https://qcon.infoq.cn/2025/beijing/track/1772

 

填补开源市场空白

 

目前,业界已有多款专为 AI 时代设计的存储系统,其中既有老牌厂商 DDN(DataDirect Networks),也涌现出像 VAST Data、Weka.io 等初创公司。

 

DDN 起源于 HPC 时代。当时,尽管 HPC 拥有强大的计算能力,但存储性能无法跟上需求。为此,DDN 开发了与 HPC 框架匹配并加速运行的存储技术。随着 AI 的崛起,DDN 也不断适应新挑战,成为支持大规模 AI 应用的关键技术。

 

值得一提的是,NVIDIA 也选择 DDN 来展示其基础设施能力,据DDN的说法,如今七年过去了,DDN 仍是 NVIDIA 内部唯一使用的数据存储技术,并广泛应用于 X 公司的 Colossus AI 集群和众多客户的 AI 应用中。但基于 DDN 的背景,它还是更偏向传统 HPC 存储,面向超算中心、AI 训练、金融等高性能存储需求。

 

根据 DeepSeek 的介绍,3FS 每个存储节点配备了 2×200Gbps InfiniBand 网卡,整体集群性能达到了 6.6TiB/s,特别是在实际业务场景中展现出的性能,使得单一集群的表现能够位居国内前列。同时,值得注意的是,DDN在今年 2 月推出了基于 Infinia 2.0 的存储平台的“重大更新”。

 

相较之下,虽然 WEKA 和 VAST 在技术上仍然是初创公司,但也受到了一些大模型明星公司的青睐。比如大模型六小虎中的月之暗面,采用的正是WEKA。通过与 WEKA 集成,并利用其 KVCache 技术,实现了高效的令牌缓存,极大地提升了数据处理的容量、速度和效率。

 


需要注意的是,上述这些公司提供的解决方案通常是商业级专用技术,而 3FS 的出现被部分业内人士视为“在开源层面填补了高性能并行文件系统的空白”。

 

针对 3FS 的开源,另一位匿名受访的资深存储技术专家也对 InfoQ 表示:“DeepSeek 的开源周肯定让不少人失眠,各种 AI Infra 基础架构都被陆续开源出来,向全球展示了中国企业在技术研发上的深厚积累和创新能力。3FS 的开源让大家直观地了解到分布式文件系统在大模型训练场景的作用,让业界意识到高性能文件系统已成为大模型训练不可或缺的一环。”

 

他进一步总结了 3FS 的几个特点:

 

其一是高性能。“单节点 40 GB/s 的读带宽基本上把网络性能压满,也达到了国际上一线品牌产品的性能指标。高性能全闪文件系统通常都能做到这个级别,IO500 榜单里也有不少集群能达到 TB/s 的总带宽。但幻方在 Infiniband 网络大规模集群组网时,还解决了拥塞问题,这一点非常了不起。”

 

其二是 AI 训练和推理的全流程优化。“AI 训练和推理的全流程优化,把业务和存储整合成一个基础平台,发挥出了存储的极致性能,给模型厂商和存储厂商提供了新的优化思路。”

 

其三是提供 KVCache 访问协议,在大规模 AI 推理场景下有优势。他指出 DeepSeek 的 KVCache 访问协议,提供了更具性价比的推理解决方案,对于业界来说是“一个很大的突破”。

 

把 KVCache 放到高性能分布式文件系统缓解了推理对显存容量的要求,把 KVCache 卸载到存储上,以存代算,可以节省算力出来支撑更多的计算任务。这推动了高性能文件系统在推理场景的落地,帮助存储厂商拓展了一个新的场景,对整个业界是影响非常大的事情

 

不过,该存储技术专家也提醒道,业界应理性看待 3FS,“高性能文件系统的使用和运维门槛相对较高,尤其是 3FS 这类专有的高性能文件系统,在充分理解它的工作原理前避免盲目跟进,毕竟不是所有公司都具备幻方的基础设施和人才储备。”

 

与此同时,JuiceFS 苏锐也从分布式文件系统与大模型训练的角度发表了看法。他指出,AI 业务涉及大量非结构化数据,包括文本、图像和视频等格式,同时企业还必须应对数据量的急剧增长。在这样的背景下,分布式文件系统成为 AI 训练中一项关键的存储技术

 

“3FS 是一个高性能并行文件系统,设计上它采用高性能 SSD 和高性能的 IB 网络,适合在数据中心部署,进行 LLM 需要的 IO 密集型的任务和计算密集型任务,如数据清洗和预训练。

对 IO 性能要求高的业务,提供结合 FUSE 和基于共享内存的异步 IO 的原生客户端,以获得接近内核客户端的性能。”苏锐说道。

 

2025-03-01 10:008947

评论

发布
暂无评论

新能力让数据多端协同更便捷,数据跨端迁移更高效!|HDC2021技术分论坛

HarmonyOS开发者

HarmonyOS

前端开发之JS数组去重方法

@零度

JavaScript 前端开发

技术干货 | ToB 业务场景下自动化测试的实践及探索

网易云信

运维 自动化

开源服务社会:EMQ 映云科技获评“优秀中国开源原生创企”

EMQ映云科技

物联网 开源项目 mqtt

Java开发Redis面试题分享

@零度

redis Java 开发

深入理解百度在离线混部技术

百度Geek说

云计算 云原生 后端

一个cpp协程库的前世今生(十六)读写锁

SkyFire

c++ cocpp

恒源云(GPUSHARE)_云GPU服务器如何使用iKataGo?

恒源云

运维 镜像 算力

存储空间降为MySQL的十分之一,TDengine在货拉拉数据库监控场景的应用

TDengine

数据库 大数据 tdengine 物联网

建立堡垒机的原则有哪些?需要注意哪些方面?

行云管家

网络安全 数据安全 信息泄露 资产安全

企业堡垒机搭建核心需求是什么?可以自己研发搭建吗?

行云管家

网络安全 信息安全 数据安全 IT资产

微服务分布式架构中,如何实现日志链路跟踪

华为云开发者联盟

微服务 日志 分布式架构 logback 链路跟踪

Linux之|etc|group文件

入门小站

Linux

大搜车面向复杂业务场景的研发运维体系治理实践

阿里云弹性计算

弹性计算 运维峰会 研发运维

跨平台技术实战!百度文库跨平台技术快速落地全过程

百度Geek说

跨平台 PC 百度文库

当技术重构遇上DDD,如何实现业务、技术双赢?

百度Geek说

架构 后端 DDD 技术债

Mysql的逻辑架构与存储引擎

编程江湖

MySQL

Flutter:GridPaper 示例

坚果

flutter 1月月更

Linux云计算好学吗?Linux云计算运维学习资料 Linux基本操作命令

学神来啦

IOS技术分享| anyRTC 互动白板场景实现

anyRTC开发者

ios 音视频 在线教育 视频会议 互动白板

Hoo研究院调研报告 |从公链Terra生态看区块链稳定币的三大核心产品

区块链前沿News

Hoo 虎符交易所 虎符研究院

[架构实战营] 模块九作业

张祥

架构实战营

FabEdge V0.4 新特性:支持多集群通讯

BoCloud博云

云原生 边缘计算 网络 开源社区

在Windows上运行Rainbond,10分钟快速安装

北京好雨科技有限公司

JavaScript 浅拷贝与深拷贝

编程江湖

『征文精选』技术翻译与术语管理技术:专业人说专业话

SphereEx

数据库 翻译 ShardingSphere 征文 SphereEx

2021 OceanBase 年度报告 | 用技术让海量数据的管理和使用更简单!

OceanBase 数据库

开源 年度报告 oceanbase 成绩单

在线HTTP/HTTPS协议GET,POST,RESTful接口测试

入门小站

工具

面向对象

你?

浅析SaaS软件和传统软件交付模式的区别

郑州埃文科技

如何打造一款三消类游戏

Shopee技术团队

算法 前端 游戏 Shopee Candy

不用英伟达严选?DeepSeek 为何自研高性能文件系统 3FS,挑战行业“标准答案”_生成式 AI_罗燕珊_InfoQ精选文章