InfoQ 重磅内容产品《中国卓越技术团队访谈录》上新啦! 了解详情
写点什么

360 自研分布式海量小文件存储系统的设计与实现

  • 2019 年 7 月 02 日
  • 本文字数:2548 字

    阅读完需:约 8 分钟

360自研分布式海量小文件存储系统的设计与实现

背景

近年来,公司业务发展迅猛,为数众多的业务场景产生了大量的图片,文档,音频,视频等非结构化数据,尤其是随着移动互联网、AI、IoT 技术的成熟和应用市场的全面爆发,大量智能硬件设备将会生成更大规模的非结构化多媒体数据。如此大量的小文件如何存储,问题应运而生。传统存储厂商出售的存储服务价格昂贵,公有云厂商对具体业务场景的定制化改造略有欠缺,因此,我们决定自研小文件存储服务。


NebulasFs 简介

曾经关注小文件存储技术的同学可能阅读过 Facebook 发表的那篇关于海量小图片存储系统 Haystack 的论文(Finding a needle in Haystack: Facebook’s photo storage),Haystack 通过合并多个小文件成一个大文件、以减少文件数量的方式解决了普通文件系统在存储数量巨大的小文件时的问题:获取一次文件多次读取元数据信息、文件访问的“长尾”效应导致大量文件元数据不容易缓存等。基于在 Haystack 的论文中得到的借鉴和参考,我们研发了自己的分布式小文件存储系统——NebulasFs。它是一个分布式、高可用、高可靠、持久化小文件存储系统,可以存储数以百亿的小文件。


架构设计

从分布式角色上划分,可以分为 Master 和 Datanode 两个大的角色。


其中,Master 负责集群的元数据存储、集群管理、任务调度等工作,它的数据一致性目前由外部一致性工具(ETCD 等)实现。Master 是一个主多个备。Datanode 是面向用户的,它主要负责数据存储和用户请求的路由、分发。


Datanode 节点包括存储 Volume 文件和 Proxy 模块。如下图所示。



用户的请求可以请求任意一个 Datanode 节点,节点的 Proxy 模块会代理用户请求到正确的数据存储节点,并返回给用户结构。对于多个副本的写请求,Proxy 模块会按照副本的一致顺序并行写入直至全部成功后返回。对于读请求只读取第一个副本。


NebulasFs 功能

为了在存储容量、一致性、可用性等方面有更好的提升来满足海量小文件存储的需求,相对于 Haystack 论文,我们在接口服务、分布式架构方面做了更多的优化,主要体现在以下方面:


一、提供给用户使用的服务接口简单、轻量、通用

NebulasFs 提供给用户 Http Restful 接口,协议更简单,使用更方便,用户可以通过简单的 PUT,GET 等操作上传和下载文件。用户无需使用定制的客户端,更加轻量级。


二、用户请求全代理、自动路由

我们知道,Datanode 具有数据存储的功能,可是对于数量众多的 Datanode 来说,用户要想知道哪些数据存储在哪个 Datanode 上是需要先从 Master 拿到数据路由的元数据才知道,这增加了用户请求的复杂度。我们在 Datanode 上增加了请求代理、路由模块把用户的请求自动代理、路由到正确的 Datanode 上,使得用户一次请求既能获取数据。



三、多租户,提供租户资源隔离机制,避免相互影响

一个集群提供的服务可能有多个用户来使用,为了避免互相影响,NebulasFs 抽象出了资源池的概念,不同的资源池物理上是分布在不同的硬件之上,资源池在机器维度上不交叉,可以有效的做到资源的隔离。不同的用户可以分布在不同的资源池也可以共享资源池,这需要管理员提前做好规划。资源池类型是多样的,它的范围可能是跨数据中心的,也可能是跨机柜,也可能是在一个机柜之内的。根据不同的物理硬件性能和数据副本存储冗余需求,对不同类型的数据存储需求也需要提前规划。


四、可定制的数据多副本存储方案,数据无丢失、多种故障域组合

为了提供可用性,保证写入数据不丢失,文件数据一般都会做容灾存储大于 1 的副本数量,以便在发生不可恢复的硬件故障时保证数据可用性以及用作之后的自动补齐副本数量。不同重要级别的数据和不同级别故障类型决定了使用不同级别的存储方案。NebulasFs 预先定义了 5 个级别的故障域,分别是:数据中心、机柜列、机柜、机器、磁盘。要求可用性较高的数据存储时使用跨数据中心做容灾副本,以便在整个数据中心不可用时使用另外一个数据中心的数据。要求没那么高的数据可以在做容灾副本策略的时候选择跨机柜存储即可,使得即便在边沿交换机故障后也可用。



NebulasFs 故障域和资源隔离池之间的关系如下:



S 代表服务器,R-1, R-2 是属于数据中心 DC-1 的两个机柜,R-3, R42 是属于数据中心 DC-2 的两个机柜。Pool-1 是跨机柜故障域的资源隔离池,Pool-2 是跨数据中心故障域的资源池,Pool-3 是跨服务器故障域的资源池。


NebulasFs 故障域逻辑和物理概念对应如下:



其中上半部分是逻辑概念,下半部分是物理概念。用户及请求均与逻辑概念相关,管理运维涉及物理概念相关。一个用户可以对应一个或者多个 Collection, 一个 Collection 对应多个 Volume, 每个 Volume 是存储在 DataNode 上的文件(有几个副本就有几个文件)。一般一个 DataNode 对应服务器上的一块硬盘。一台服务器上有多个 DataNode。服务器(Server)的上层是机柜(Rack)、一排机柜(Row)和数据中心(DataCenter)。


五、自动化扩容和再平衡

扩容分为存储容量不足进行扩容和请求流量过载进行的扩容。由于容量不足的扩容后无需再平衡,只有请求流量大扩容后需要做数据再平衡。再平衡是按照容灾副本数等策略进行的,按照策略添加的 Datanode 会自动注册到 Master 上,Master 按照预定的规则进行协调再平衡。


两种扩容情况如下:




六、自动化副本修复补齐

一定规模的集群故障可能会变的比较频繁,在我们的系统中故障很大程度上意味着数据副本的丢失,人工补齐数据副本工作量较大,因此自动化补齐副本就成了一个比较重要的功能。自动化补齐副本是靠 Master 发现副本缺失和协调补齐的。在补齐的过程中数据副本都会变成只读。过程如下图:



整个自动化副本补齐如下图所示:



由于硬盘故障,数据节点 2 和 3 上的 Volume 3 和 6 副本丢失,自动补齐自动把这两个副本补齐到数据节点 4 和 5 上,并加入到集群中。


小结

到目前为止,NebulasFs 在内部已经使用了近一年的时间。除此之外 NebulasFs 还做为后端存储为另一个对象存储(AWS S3 协议)提供服务以存储大文件。


伴随着业务的不断接入,NebulasFs 也会不断完善,为业务增长提供更好的保障。


本文转载自公众号 360 云计算(ID:hulktalk)


原文链接


https://mp.weixin.qq.com/s?__biz=MzU4ODgyMDI0Mg==&mid=2247486588&idx=1&sn=1b63e9768980444aea29336a4a689ac7&chksm=fdd7b601caa03f172cba2cbcb8e1d0dc33705c7fee7ee1196baf38fdb2cc3599fc352388ced6&scene=27#wechat_redirect


2019 年 7 月 02 日 08:004820

评论

发布
暂无评论
发现更多内容

JAVA为什么需要注解?

源字节1号

ACL22 挖宝,一个预训练+微调的neural topic model

infoQ-LolitaAnn

人工智能 5月月更 主题模型

案例分享|一键式自动监测,跨境电商平台的业务转型模板

博睿数据

博睿数据 数据链DNA

我是如何做到百万数据跑批半小时结束

skow

后端 java

GitHub成功收获87

爱好编程进阶

Java 程序员 后端开发

TASKCTL分布式任务调度平台-流程控制原理

TASKCTL

程序员 DevOps 分布式 大数据运维 TASKCTL

跨端跨框架 UI 自动化测试方案 Flybirds

liang chen

Swoole 定时器能实现毫秒级任务调度,你敢相信吗?

CRMEB

十年磨一剑|沃趣数据库云产品战略首发

沃趣科技

云原生 公有云 私有云 数据库云 沃趣科技

时序数据库为万物互联打下坚实的基石

华为云开发者联盟

数据仓库 物联网 时序数据库 GaussDB 时序数据

Github标星28K+,这款可视化的对象存储服务真香

爱好编程进阶

Java 程序员 后端开发

Hadoop 3

爱好编程进阶

Java 程序员 后端开发

Hadoop05【命令操作】

爱好编程进阶

Java 程序员 后端开发

如何开发 LAXCUS 分布式应用软件(二):基本构成

LAXCUS分布式操作系统

集群架构 并行计算 分布式操作系统 分布式应用

直播预告丨Hello HarmonyOS进阶课程第二课——计算机视觉

HarmonyOS开发者社区

HarmonyOS 图形图像 视觉开发

数据增强(一):imgaug

AIWeker

人工智能 深度学习 数据增强 5月月更

【等保测评】2022年深圳等保测评公司排名看这里!

行云管家

等保 深圳 等保测评 等保2.0

OpenMLDB官网升级,神秘贡献者地图带你快速进阶!

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征

升级HarmonyOS 2最新版本,出门亮健康码快人一步!

科技汇

AI驱动音乐创新,网易数帆X云音乐刷新MIREX世界纪录

网易数帆

人工智能 AI 语音识别 歌词识别 预练习

秒云助力上海金融信息技术应用创新联合攻关基地正式上线信创容器云平台

秒云

云原生 信创 智能运维 一云多芯解决方案

ICT架构体系详细说明【3】

爱好编程进阶

程序员 后端开发

大数据培训HBase读写性能优化的详解

@零度

大数据 HBase

火山引擎入选“2022 中国边缘计算20强”榜单

火山引擎边缘云

边缘计算

【IT运维】运维告警方式有哪些?哪个工具好用?

行云管家

服务器 IT运维 服务器运维

360自研分布式海量小文件存储系统的设计与实现_数据库_冯培源_InfoQ精选文章