大咖直播-鸿蒙原生开发与智能提效实战!>>> 了解详情
写点什么

不用英伟达严选?DeepSeek 为何自研高性能文件系统 3FS,挑战行业“标准答案”

  • 2025-03-01
    北京
  • 本文字数:2679 字

    阅读完需:约 9 分钟

大小:1.33M时长:07:43
不用英伟达严选?DeepSeek 为何自研高性能文件系统 3FS,挑战行业“标准答案”

DeepSeek 文件系统背后的“王炸”到底是什么?

 

2 月 28 日,DeepSeek 开源周第五日迎来了 Fire-Flyer File System (3FS):一套基于现代 SSD 与 RDMA 网络全部带宽的并行文件系统。

 

按照官方的说法,3FS 专为应对 AI 训练和推理工作负载的挑战而设计,将为 DeepSeek 的数据访问全程加速。它以高吞吐、低延迟和强一致性为核心设计理念,为分布式应用开发者提供了一个简化的共享存储层。

 

在具体应用中,3FS 涵盖了从数据准备(将数据分析管线的输出组织成分层目录并高效管理海量中间结果)、数据加载(无需额外预取或洗牌数据集,支持跨节点随机访问训练样本)、检查点(提供并行高吞吐的检查点保存与重载)到推理阶段的 KVCache(为大规模语言模型推理提供高吞吐且容量更大的缓存)等多种关键环节。据悉,在 V3 与 R1 版本模型中,3FS 正是通过在这些环节的出色表现,大幅提升了训练与推理过程的效率与稳定性

 

为满足这些高负载需求,3FS 在架构设计上具备以下核心特性与优势:

  • 分离式架构:整合数千块 SSD 与数百个存储节点的网络带宽,无需考虑数据局部性即可完成大规模并行存储访问。

  • 强一致性:利用链复制与分配式查询(CRAQ)实现强一致性,简化了上层应用的开发难度。

  • 文件接口:基于成熟的元数据服务与事务型键值存储(如 FoundationDB),提供通用而熟悉的文件 API,无需额外学习新协议。

 

性能表现方面,在一个由 180 个存储节点组成的大规模集群中(每节点含 2×200Gbps InfiniBand 网卡与 16 块 14TiB NVMe SSD),3FS 在同时运行训练任务的背景流量下,依然实现了约 6.6 TiB/s 的整体读取吞吐量



在大型 3FS 集群上进行读取压力测试的吞吐情况。

 

同时,其 GraySort 基准测试突破 3.66 TiB/分钟。在由 25 个存储节点和 50 个计算节点构成的集群上,3FS 通过两阶段(基于键前缀位的 Shuffle 分区 + 分区内排序)读取/写入数据,完成了对 110.5 TiB 数据、8192 个分区的排序,仅耗时 30 分钟 14 秒,平均吞吐量达到 3.66 TiB/分钟。




在推理场景下,为优化大规模语言模型(LLM)的 KVCache 查找速度,3FS 提供了高吞吐、强一致性的数据访问能力,单个客户端节点峰值可达 40+ GiB/s,同时支持高效的垃圾回收操作。




DeepSeek 3FS 的项目地址:https://github.com/deepseek-ai/3FS

 

在 4 月 10-12 日将于北京举办的 Qcon 全球软件开发大会上,我们特别设置了【智能时代的存储架构】专题。该专题邀请了来自美团、百度、炎融、蚂蚁等专家,深入探讨深入探讨大模型引领的智能时代下,分布式存储如何与其互相促进,并更好地做出架构迭代、创新。

 

查看大会日程解锁更多精彩内容:https://qcon.infoq.cn/2025/beijing/track/1772

 

填补开源市场空白

 

目前,业界已有多款专为 AI 时代设计的存储系统,其中既有老牌厂商 DDN(DataDirect Networks),也涌现出像 VAST Data、Weka.io 等初创公司。

 

DDN 起源于 HPC 时代。当时,尽管 HPC 拥有强大的计算能力,但存储性能无法跟上需求。为此,DDN 开发了与 HPC 框架匹配并加速运行的存储技术。随着 AI 的崛起,DDN 也不断适应新挑战,成为支持大规模 AI 应用的关键技术。

 

值得一提的是,NVIDIA 也选择 DDN 来展示其基础设施能力,据DDN的说法,如今七年过去了,DDN 仍是 NVIDIA 内部唯一使用的数据存储技术,并广泛应用于 X 公司的 Colossus AI 集群和众多客户的 AI 应用中。但基于 DDN 的背景,它还是更偏向传统 HPC 存储,面向超算中心、AI 训练、金融等高性能存储需求。

 

根据 DeepSeek 的介绍,3FS 每个存储节点配备了 2×200Gbps InfiniBand 网卡,整体集群性能达到了 6.6TiB/s,特别是在实际业务场景中展现出的性能,使得单一集群的表现能够位居国内前列。同时,值得注意的是,DDN在今年 2 月推出了基于 Infinia 2.0 的存储平台的“重大更新”。

 

相较之下,虽然 WEKA 和 VAST 在技术上仍然是初创公司,但也受到了一些大模型明星公司的青睐。比如大模型六小虎中的月之暗面,采用的正是WEKA。通过与 WEKA 集成,并利用其 KVCache 技术,实现了高效的令牌缓存,极大地提升了数据处理的容量、速度和效率。

 


需要注意的是,上述这些公司提供的解决方案通常是商业级专用技术,而 3FS 的出现被部分业内人士视为“在开源层面填补了高性能并行文件系统的空白”。

 

针对 3FS 的开源,另一位匿名受访的资深存储技术专家也对 InfoQ 表示:“DeepSeek 的开源周肯定让不少人失眠,各种 AI Infra 基础架构都被陆续开源出来,向全球展示了中国企业在技术研发上的深厚积累和创新能力。3FS 的开源让大家直观地了解到分布式文件系统在大模型训练场景的作用,让业界意识到高性能文件系统已成为大模型训练不可或缺的一环。”

 

他进一步总结了 3FS 的几个特点:

 

其一是高性能。“单节点 40 GB/s 的读带宽基本上把网络性能压满,也达到了国际上一线品牌产品的性能指标。高性能全闪文件系统通常都能做到这个级别,IO500 榜单里也有不少集群能达到 TB/s 的总带宽。但幻方在 Infiniband 网络大规模集群组网时,还解决了拥塞问题,这一点非常了不起。”

 

其二是 AI 训练和推理的全流程优化。“AI 训练和推理的全流程优化,把业务和存储整合成一个基础平台,发挥出了存储的极致性能,给模型厂商和存储厂商提供了新的优化思路。”

 

其三是提供 KVCache 访问协议,在大规模 AI 推理场景下有优势。他指出 DeepSeek 的 KVCache 访问协议,提供了更具性价比的推理解决方案,对于业界来说是“一个很大的突破”。

 

把 KVCache 放到高性能分布式文件系统缓解了推理对显存容量的要求,把 KVCache 卸载到存储上,以存代算,可以节省算力出来支撑更多的计算任务。这推动了高性能文件系统在推理场景的落地,帮助存储厂商拓展了一个新的场景,对整个业界是影响非常大的事情

 

不过,该存储技术专家也提醒道,业界应理性看待 3FS,“高性能文件系统的使用和运维门槛相对较高,尤其是 3FS 这类专有的高性能文件系统,在充分理解它的工作原理前避免盲目跟进,毕竟不是所有公司都具备幻方的基础设施和人才储备。”

 

与此同时,JuiceFS 苏锐也从分布式文件系统与大模型训练的角度发表了看法。他指出,AI 业务涉及大量非结构化数据,包括文本、图像和视频等格式,同时企业还必须应对数据量的急剧增长。在这样的背景下,分布式文件系统成为 AI 训练中一项关键的存储技术

 

“3FS 是一个高性能并行文件系统,设计上它采用高性能 SSD 和高性能的 IB 网络,适合在数据中心部署,进行 LLM 需要的 IO 密集型的任务和计算密集型任务,如数据清洗和预训练。

对 IO 性能要求高的业务,提供结合 FUSE 和基于共享内存的异步 IO 的原生客户端,以获得接近内核客户端的性能。”苏锐说道。

 

2025-03-01 10:009293

评论

发布
暂无评论

银行大数据新玩法,构建“一湖两库”金融数据湖

华为云开发者联盟

大数据 数据湖 FusionInsight MRS DWS

Spring Boot中获取配置的一些方法

Geek_416be1

Spring Boot 2

新基建迎来风口 新人才仍有缺口

CECBC

人工智能 新基建 数字化基础

深入了解 Rust 异步开发模式

lipi

rust 异步

Redis常见问题--单线程

是老郭啊

nosql redis 线程

易观CTO郭炜:如何构建企业级大数据Ad-hoc查询引擎

易观大数据

开发任务管理分析报告

森林

向云再出发:如数据般飞驰的内蒙古

脑极体

controller-manager的主动驱逐

Geek_f24c45

Kubernetes k8s

一文带你深扒ClassLoader内核,揭开它的神秘面纱!

我没有三颗心脏

Java ClassLoader java基础 类加载器

人民版权 获2020中国产业区块链创新奖

CECBC

区块链 产业发展 版权

数字货币交易平台搭建,去中心化交易所开发方案

13530558032

消息队列之事务消息,RocketMQ 和 Kafka 是如何做的?

yes

分布式事务 RocketMQ kafak 事务消息

JAVA,.NET项目开发难上手?Learun敏捷开发框架解君愁

Philips

Java 敏捷开发 .net core

Vue+Springboot项目部署

ZRK

Vue 前后端分离 springboot 部署

一键洞察全量SQL ,远离性能异常

华为云开发者联盟

数据库 sql 大数据 数据治理 华为云

一个空格引发的“救火之旅” - 记一次 SOFA RPC 的排查过程

阿里云金融线TAM SRE专家服务团队

数字化转型需要低/零代码平台的支持

代码制造者

低代码 数字化转型 企业信息化 零代码 编程开发

NodeX Component - 滴滴集团 Node.js 生态组件体系

滴滴普惠出行

【译】Amazon Aurora: Design Considerations for High Throughput Cloud-Native Relational Databases 上篇

米乐m6app苹果官网下载

分布式数据库 异步 Amazon Aurora 日志驱动

10万奖金等你拿!2020第四届易观OLAP算法大赛火热开启

易观大数据

数字人民币钱包短暂露面 金融诈骗伺机而起

CECBC

数字货币 钱包 货币

Redis常见问题--哈希冲突

是老郭啊

哈希表 Redis项目

开发者的福音,LR.NET模块化代码生成器

Learun

Java 敏捷开发 .net core 计算机程序设计艺术 软件设计

mPaas研发流程和线上运维介绍

阿里云金融线TAM SRE专家服务团队

ios android

JVM 内存模型、字节码、垃圾回收面试要点

escray

学习 面试 垃圾回收 字节码

LeetCode题解:155. 最小栈,单个栈同时存储最小值,JavaScript,详细注释

Lee Chen

大前端 LeetCode

OpenKruise:Kubernetes 核心控制器 Plus

郭旭东

Kubernetes 云原生 OpenKruise

Spring整合WebSocket

牛初九

Redis 持久化--AOF

是老郭啊

redis redis持久化 aof

Docker 镜像的备份恢复迁移

哈喽沃德先生

Docker 容器 微服务 镜像

不用英伟达严选?DeepSeek 为何自研高性能文件系统 3FS,挑战行业“标准答案”_生成式 AI_罗燕珊_InfoQ精选文章