写点什么

不用英伟达严选?DeepSeek 为何自研高性能文件系统 3FS,挑战行业“标准答案”

  • 2025-03-01
    北京
  • 本文字数:2679 字

    阅读完需:约 9 分钟

大小:1.33M时长:07:43
不用英伟达严选?DeepSeek 为何自研高性能文件系统 3FS,挑战行业“标准答案”

DeepSeek 文件系统背后的“王炸”到底是什么?

 

2 月 28 日,DeepSeek 开源周第五日迎来了 Fire-Flyer File System (3FS):一套基于现代 SSD 与 RDMA 网络全部带宽的并行文件系统。

 

按照官方的说法,3FS 专为应对 AI 训练和推理工作负载的挑战而设计,将为 DeepSeek 的数据访问全程加速。它以高吞吐、低延迟和强一致性为核心设计理念,为分布式应用开发者提供了一个简化的共享存储层。

 

在具体应用中,3FS 涵盖了从数据准备(将数据分析管线的输出组织成分层目录并高效管理海量中间结果)、数据加载(无需额外预取或洗牌数据集,支持跨节点随机访问训练样本)、检查点(提供并行高吞吐的检查点保存与重载)到推理阶段的 KVCache(为大规模语言模型推理提供高吞吐且容量更大的缓存)等多种关键环节。据悉,在 V3 与 R1 版本模型中,3FS 正是通过在这些环节的出色表现,大幅提升了训练与推理过程的效率与稳定性

 

为满足这些高负载需求,3FS 在架构设计上具备以下核心特性与优势:

  • 分离式架构:整合数千块 SSD 与数百个存储节点的网络带宽,无需考虑数据局部性即可完成大规模并行存储访问。

  • 强一致性:利用链复制与分配式查询(CRAQ)实现强一致性,简化了上层应用的开发难度。

  • 文件接口:基于成熟的元数据服务与事务型键值存储(如 FoundationDB),提供通用而熟悉的文件 API,无需额外学习新协议。

 

性能表现方面,在一个由 180 个存储节点组成的大规模集群中(每节点含 2×200Gbps InfiniBand 网卡与 16 块 14TiB NVMe SSD),3FS 在同时运行训练任务的背景流量下,依然实现了约 6.6 TiB/s 的整体读取吞吐量



在大型 3FS 集群上进行读取压力测试的吞吐情况。

 

同时,其 GraySort 基准测试突破 3.66 TiB/分钟。在由 25 个存储节点和 50 个计算节点构成的集群上,3FS 通过两阶段(基于键前缀位的 Shuffle 分区 + 分区内排序)读取/写入数据,完成了对 110.5 TiB 数据、8192 个分区的排序,仅耗时 30 分钟 14 秒,平均吞吐量达到 3.66 TiB/分钟。




在推理场景下,为优化大规模语言模型(LLM)的 KVCache 查找速度,3FS 提供了高吞吐、强一致性的数据访问能力,单个客户端节点峰值可达 40+ GiB/s,同时支持高效的垃圾回收操作。




DeepSeek 3FS 的项目地址:https://github.com/deepseek-ai/3FS

 

在 4 月 10-12 日将于北京举办的 Qcon 全球软件开发大会上,我们特别设置了【智能时代的存储架构】专题。该专题邀请了来自美团、百度、炎融、蚂蚁等专家,深入探讨深入探讨大模型引领的智能时代下,分布式存储如何与其互相促进,并更好地做出架构迭代、创新。

 

查看大会日程解锁更多精彩内容:https://qcon.infoq.cn/2025/beijing/track/1772

 

填补开源市场空白

 

目前,业界已有多款专为 AI 时代设计的存储系统,其中既有老牌厂商 DDN(DataDirect Networks),也涌现出像 VAST Data、Weka.io 等初创公司。

 

DDN 起源于 HPC 时代。当时,尽管 HPC 拥有强大的计算能力,但存储性能无法跟上需求。为此,DDN 开发了与 HPC 框架匹配并加速运行的存储技术。随着 AI 的崛起,DDN 也不断适应新挑战,成为支持大规模 AI 应用的关键技术。

 

值得一提的是,NVIDIA 也选择 DDN 来展示其基础设施能力,据DDN的说法,如今七年过去了,DDN 仍是 NVIDIA 内部唯一使用的数据存储技术,并广泛应用于 X 公司的 Colossus AI 集群和众多客户的 AI 应用中。但基于 DDN 的背景,它还是更偏向传统 HPC 存储,面向超算中心、AI 训练、金融等高性能存储需求。

 

根据 DeepSeek 的介绍,3FS 每个存储节点配备了 2×200Gbps InfiniBand 网卡,整体集群性能达到了 6.6TiB/s,特别是在实际业务场景中展现出的性能,使得单一集群的表现能够位居国内前列。同时,值得注意的是,DDN在今年 2 月推出了基于 Infinia 2.0 的存储平台的“重大更新”。

 

相较之下,虽然 WEKA 和 VAST 在技术上仍然是初创公司,但也受到了一些大模型明星公司的青睐。比如大模型六小虎中的月之暗面,采用的正是WEKA。通过与 WEKA 集成,并利用其 KVCache 技术,实现了高效的令牌缓存,极大地提升了数据处理的容量、速度和效率。

 


需要注意的是,上述这些公司提供的解决方案通常是商业级专用技术,而 3FS 的出现被部分业内人士视为“在开源层面填补了高性能并行文件系统的空白”。

 

针对 3FS 的开源,另一位匿名受访的资深存储技术专家也对 InfoQ 表示:“DeepSeek 的开源周肯定让不少人失眠,各种 AI Infra 基础架构都被陆续开源出来,向全球展示了中国企业在技术研发上的深厚积累和创新能力。3FS 的开源让大家直观地了解到分布式文件系统在大模型训练场景的作用,让业界意识到高性能文件系统已成为大模型训练不可或缺的一环。”

 

他进一步总结了 3FS 的几个特点:

 

其一是高性能。“单节点 40 GB/s 的读带宽基本上把网络性能压满,也达到了国际上一线品牌产品的性能指标。高性能全闪文件系统通常都能做到这个级别,IO500 榜单里也有不少集群能达到 TB/s 的总带宽。但幻方在 Infiniband 网络大规模集群组网时,还解决了拥塞问题,这一点非常了不起。”

 

其二是 AI 训练和推理的全流程优化。“AI 训练和推理的全流程优化,把业务和存储整合成一个基础平台,发挥出了存储的极致性能,给模型厂商和存储厂商提供了新的优化思路。”

 

其三是提供 KVCache 访问协议,在大规模 AI 推理场景下有优势。他指出 DeepSeek 的 KVCache 访问协议,提供了更具性价比的推理解决方案,对于业界来说是“一个很大的突破”。

 

把 KVCache 放到高性能分布式文件系统缓解了推理对显存容量的要求,把 KVCache 卸载到存储上,以存代算,可以节省算力出来支撑更多的计算任务。这推动了高性能文件系统在推理场景的落地,帮助存储厂商拓展了一个新的场景,对整个业界是影响非常大的事情

 

不过,该存储技术专家也提醒道,业界应理性看待 3FS,“高性能文件系统的使用和运维门槛相对较高,尤其是 3FS 这类专有的高性能文件系统,在充分理解它的工作原理前避免盲目跟进,毕竟不是所有公司都具备幻方的基础设施和人才储备。”

 

与此同时,JuiceFS 苏锐也从分布式文件系统与大模型训练的角度发表了看法。他指出,AI 业务涉及大量非结构化数据,包括文本、图像和视频等格式,同时企业还必须应对数据量的急剧增长。在这样的背景下,分布式文件系统成为 AI 训练中一项关键的存储技术

 

“3FS 是一个高性能并行文件系统,设计上它采用高性能 SSD 和高性能的 IB 网络,适合在数据中心部署,进行 LLM 需要的 IO 密集型的任务和计算密集型任务,如数据清洗和预训练。

对 IO 性能要求高的业务,提供结合 FUSE 和基于共享内存的异步 IO 的原生客户端,以获得接近内核客户端的性能。”苏锐说道。

 

2025-03-01 10:009144

评论

发布
暂无评论

蔚来汽车智能座舱接入通义大模型,并使用通义灵码全面提效

阿里巴巴云原生

阿里云 云原生 通义灵码

第87期 | GPTSecurity周报

云起无垠

基于 Trae 的单细胞 RNA 测序分析与可视化

火山引擎开发者社区

火山引擎 RNA

从繁忙到真正高效:为何资源效率正在扼杀你的产出

ShineScrum

敏捷

CAD提示无法更新实体填充

极客天地

扫雷行动派|狄耐克服务万里不停歇,以Ai相伴到万家

新消费日报

CloudWeGo + APMPlus:打造从开发到可观测的一站式体验

火山引擎开发者社区

分布式架构 火山引擎

新客户 | 美妆智造全面升级:毫秒级查询 + 极致压缩

TDengine

数据库 tdengine 时序数据库

企业数字化转型失败频率为什么这么高?

积木链小链

数字化转型 数字化 智能制造

CAD图纸中插入图块的详细步骤与技巧

在路上

cad cad看图 CAD看图王

《Operating System Concepts》阅读笔记:p700-p732

codists

操作系统

有没有适合企业用的局域网即时通讯聊天工具?

BeeWorks

iVX:引领图形化编程与 AI 融合的开发革命

代码制造者

无代码开发

为什么企业要用私有化部署的Im即时通讯软件?

BeeWorks

项目管理工具:Jira vs Leangoo

axe

Jira 项目管理工具 办公软件 leangoo

不到一首歌的时间,AppStudio助你快速搭建 AI 智能体应用!

商汤万象开发者

人工智能 AI

SpringAI版本更新:向量数据库不可用的解决方案!

王磊

CAD测量三维实体表面积方法

极客天地

如何选择分析型数据库?企业级选型指南与 2025 趋势解读

镜舟科技

云原生 OLAP BI 分析型数据库 StarRocks

教学资源管理系统的测试

北京木奇移动技术有限公司

软件外包公司 出版社 教学资源网

工业数据治理范式革新:TDengine虚拟表技术解析

TDengine

数据库 tdengine 时序数据库

CAD背景遮罩使用方法

极客天地

从关键词到流量闭环,AI 自动 SEO 如何一步到位?

极客天地

用户行为分析正在被保险行业广泛采纳-ClkLog埋点分析系统

ClkLog

开源 数据分析 画像 埋点分析

Prometheus 性能调优:大模型和智能驾驶可观测的高基数问题

火山引擎开发者社区

AI 火山引擎

OpenDataLab&和鲸举办大模型赋能科研分享会

ModelWhale

大模型 科研 经济管理 minerU

金融行业数字化转型破局:WhaleScheduler如何重塑万级任务调度体系?

白鲸开源

白鲸开源 WhaleStudio 商业案例

蔚来汽车智能座舱接入通义大模型,并使用通义灵码全面提效

阿里云云效

阿里云 云原生 通义灵码

三维模型怎么剖切?三维剖切详细教程来了

在路上

cad cad看图 CAD看图王

「摩根士丹利」最新人形机器人研报:头部人形机器人公司梳理和趋势分析(附报告)

机器人头条

科技 大模型 人形机器人 具身智能

手把手教你安装部署金仓数据库 KingbaseES

金仓技术

数据库· KingbaseES 金仓数据库

不用英伟达严选?DeepSeek 为何自研高性能文件系统 3FS,挑战行业“标准答案”_生成式 AI_罗燕珊_InfoQ精选文章