写点什么

Facebook 冷存储系统

  • 2015-05-14
  • 本文字数:2485 字

    阅读完需:约 8 分钟

AI 大模型超全落地场景&金融应用实践,8 月 16 - 19 日 FCon x AICon 大会联诀来袭、干货翻倍!

作为排名世界领先的社交网站,Facebook 经历了迅速崛起的过程。从 2004 年上线开始,其用户数量在 2007 年 7 月已经达到三千四百万。时至今日,Facebook 每月的活跃用户量已经超过 20 亿,占全球总人口的三分之一。同时,作为一个全球排名领先的照片分享站点,网站每天会收到上亿张照片。伴随着用户数量以及用户上传资源的增多,Facebook 网站的后台服务器数量也从 1 台迅速增加到数十万台。为了满足长期发展需求,Facebook 于 2010 年在美国俄勒冈州的 Prineville 建设了第一个数据中心。之后,该公司又分别在美国的北卡罗来纳州和爱荷华州等地方建立了若干个数据中心。这些高性能数据中心很好的解决了网站发展的迫切需求。即使是在西方的万圣节,服务器也可以完美支持用户成功上传 10 亿到 20 亿张图片。然而,这些数据中心在满足用户需求的同时,也给公司带来了巨大的花销。除却构建基础设施(包括机房、服务器等)的庞大花费,Facebook 数据中心每年消耗的上亿度电就是一笔很大的开销。因此,Facebook 从 2011 年开始考虑冷存储技术,来解决硬件花销及能源消耗问题。

Facebook 的冷存储技术起源于对自身数据存储方式及数据访问模式的思考。在以往,网站对于所有的照片、个人资料等基本采用同样的方式进行存储。但是,不同的数据在访问频率、访问次数等方面存在很大的不同。例如,用户在万圣节上传的大量照片基本上在几天或几周之后就不会再被访问。而用户主页的资料则是经常被访问的内容。鉴于这种情况,Facebook 提出冷存储的计划以更低能耗、更低成本和不变的响应时间来存储这些“冷”照片数据。经过几年的筹划,Facebook 目前已经建成了扩建了两个数据中心,用来放置包含全新设计的硬件和软件的冷存储系统。尽管行业界对于数据中心相关的技术都讳莫如深,Facebook 却成立开放计算项目(OCP),公布了定制数据中心和服务器的一系列设计细节。近期, Facebook 员工 Krish Bandaru 和 Kestutis Patiejunas 更是在博客中透露了新的冷存储系统在设计时遇到的各种难题,以及系统的一些设计细节。接下来,本文就从硬件、软件以及系统的可靠性和可扩展性等方面对 Facebook 的冷存储系统进行介绍。

首先,在硬件方面,新建的存储系统只配备了原本系统 1/6 的电量供应。此时,每个数据机柜机房仍然要能够支持 1000PB 的数据存储。为了到达这样的目标,Facebook 在 Open Vault OCP 标准的基础上,进行了修改。其中,最大的改变在于每个面板只支持一个驱动器的供电。为此,公司特别修改了电路设计,使得即使会出现系统启动时没有加载任何驱动器的情况,也绝对不会有多个驱动器在同时运行的情况。在此基础上,每个存储节点的风扇数量从 6 个减少到了 4 个,同时电源架数量从 3 个减少到了 1 个,电源架上的电源个数也从 7 个减少到了 5 个。这些变化使得 Open Rack 的总线数量从 3 个减少到 1 个。最终,反映到功耗方面,一个 2PB 的机柜可以在原来四分之一功耗的情况下正常工作。此外,数据中心还移除了无间断电源(DCUPS)以及发电机等来减少硬件开销。在设计这个全新的存储系统时,Facebook 的设计师遇到了很多前所未有的困难和问题。例如,在测试中,设计师才发现全新设计的机柜在携带 480 个 4TB 驱动器时竟然重达 1100 千克。之前一直在使用的运输车根本不能负载这么重的货物。

然后,另外一方面重要的工作就是设计一个能够支持冷存储的软件系统。鉴于硬件设计中已经去除了电池和不间断电源,软件需要在随时可能断电的情况下保证数据的完整性和持久性。根据设计目标,Facebook 在软件设计阶段坚持了几个准则。第一,数据的持久性是软件系统必须要保证的内容。尤其是对于冷存储系统,很多照片或其他数据可能只在该系统中保留有备份。作为数据恢复的最后一道防线,该系统一定要保证数据不会丢失或损坏。第二,硬件方面的约束使得软件设计要十分小心。非企业级的硬件配置、随时可能掉电的电源配置等情况都是软件需要应对的问题。最后,软件一定要考虑未来大规模系统的需求,保证硬件扩展后系统还可以高效率工作。

在硬件和软件设计基本确定以后,Facebook 仍然需要解决硬盘失效以及数据中心电源不稳定等带来的可靠性问题。该公司采用了传统的数据冗余备份的方式来增加可靠性。其中,所采用的冗余备份策略为 Reed-Solmon 错误检测编码。例如,一个 1GB 大小的文件会被分割成 10 个 100MB 的文件。然后,这个 10 个文件的 Reed-Solmon 编码会将其转变成 14 个文件互相冗余的文件。通过这种转换,Reed-Solmon 编码保证通过其中任意 10 个文件仍然能够将原来的数据成功恢复。因此,只要把这些文件分开存储,即使其中 4 个文件损坏,系统仍然能够正确恢复数据。数据中心根据存储媒介的失效率等参数调整编码方式中冗余数据的个数,即可完成系统对可靠性的要求。此外,数据中心会紧挨着数据本身存储一份校验和,来方便检查数据的完整性,及时发现数据完整性问题。

Facebook 数据中心关心的另外一个问题就是“bit rot”问题。之前,该公司就发现在大规模存储系统中存在无访问的情况下数据失效的问题。为了应对该问题,冷存储的数据中心采用了定期对所有数据进行扫描的策略。目前,服务器一个月左右会把所有的数据扫描一遍并向软件汇报相应情况。针对发现的数据失效问题,软件会利用备份的数据片重新构建数据,并放置到一个新的地方进行存储。通过这种方法,数据中心保证所有的数据都可以得以完整保存。

最后,为了应对扩展服务器的问题,系统软件一直均衡所有服务器的负载。对于新加入的服务器,软件会迅速把数据转移到该机器,实现所有服务器负载均衡。这样,即保证了数据存储的平等,也保证了服务器使用率的平衡。据 Krish Bandaru 和 Kestutis Patiejunas 表示,Facebook 的冷存储系统会在将来继续升级,所涉及的方面包括新型媒介(如 flash 和蓝光光盘等)的使用和应对频繁映射 / 反映射的文件系统升级等。


感谢崔康对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群)。

2015-05-14 07:514181
用户头像

发布了 268 篇内容, 共 119.7 次阅读, 收获喜欢 24 次。

关注

评论

发布
暂无评论
发现更多内容

拥抱K8S系列-01-CentOS7安装docker

张无忌

Docker centos 运维

【运维探讨】RPA落地实践,提升IT运维工作效能!

嘉为蓝鲸

RPA 运维自动化 标准化 系统运维 流程

Java中强、软、弱、虚四种引用详解

奈学教育

Java

高效程序员的45个习惯:敏捷开发修炼之道(7)

石云升

敏捷开发 晨会

2019年我最喜欢的三款数码产品。

徐说科技

手机 苹果

面经手册 · 第9篇《队列是什么?什么是双端队列、延迟对列、阻塞队列,全是知识盲区!》

小傅哥

数据结构 小傅哥 队列 ArrayDeque

Java创建对象的方法有哪些?

古月木易

Java

Java创建对象的方法有哪些?

奈学教育

Java

一条龙!CI / CD 、打造小团队前端工程化服务

久违

Vue 大前端 jenkins React

Java中强、软、弱、虚四种引用详解

古月木易

Java

LeetCode题解:84. 柱状图中最大的矩形,双循环暴力,JavaScript,详细注释

Lee Chen

大前端 LeetCode

ArCall远比你想象的要强大的多

anyRTC开发者

WebRTC 在线教育 直播 RTC 安卓

花两个半月吃透这份Java手打面经,成功从外包上岸到京东

Java迁哥

Java 学习 腾讯 面试 资料

week12 homework

burner

区块链支付系统源码开发,USDT承兑支付平台

13530558032

java安全编码指南之:Mutability可变性

程序那些事

Java java安全编码 编码指南 可变性

Docker 网络模式详解及容器间网络通信

哈喽沃德先生

Docker 容器 微服务

vivo商城前端架构升级-总览篇

vivo互联网技术

node.js Vue 大前端 架构设计

JDK8 Unsafe.java 源码

Darren

源码 并发 CAS 代码注释 unsafe

实战案例丨使用云连接CC和数据复制服务DRS实现跨区域RDS迁移和数据同步

华为云开发者联盟

迁移 灾备 数据复制 云连接 数据同步

鲲鹏迁移第一批吃螃蟹的人,践行技术国际化

华为云开发者联盟

鲲鹏920 服务器 华为云 ARM芯片 X86

35K成功上岸华为商城事业部,只因学透了这几个开源的商城项目

Java迁哥

Java 华为 源码 资料 商城项目

程序员如何获取一份高薪工作?阿里P8大牛给你一些中肯的建议

Java迁哥

Java 华为 程序员 面试 资料

CPU中的程序是怎么运行起来的(预告篇)

良知犹存

cpu

【API进阶之路】破圈,用一个API代替10人内容团队

华为云开发者联盟

内容 编辑 API 华为云 文本摘要

架构设计复杂度来源

escray

学习 从零开始学架构 架构师预科班

为什么阿里巴巴的程序员成长速度这么快,看完他们的内部资料我明白了

Java迁哥

Java 阿里巴巴 程序员 成长 笔记

9块钱,构建个私有网盘,关键不限速

华为云开发者联盟

网站 OBS 在线网盘 华为云 云存储

JVM中unsafe.cpp源码

Darren

c++ 源码 JVM unsafe

分析HiveQL 生成的MapReduce执行程序

任小龙

区块链交易所开发源码,数字货币交易所app开发

13530558032

Facebook冷存储系统_Meta_张天雷_InfoQ精选文章