写点什么

Facebook 开源分布式日志存储系统 LogDevice

  • 2018-10-08
  • 本文字数:1096 字

    阅读完需:约 4 分钟

Facebook开源了他们的内部分布式日志存储项目LogDevice。它通过复制、持久日志存储和故障恢复实现写入高可用性。

Facebook 的大多数需要记录日志应用程序都需要写入高可用性、持久的日志存储以及在性能和延迟方面要求各不相同的工作负载。另一个非常重要的要求是能够承受硬件故障。Facebook 有一个叫作 Scribe 的旧项目侧重于将日志聚合到集中式存储中,但这种方案存在数据丢失的情况。Scribe 现在使用 LogDevice 作为日志存储后端。

Facebook 将 LogDevice 用在数据中心内部的流式处理管道、数据库索引更新的发布、机器学习管道、复制管道和持久任务队列(每秒摄取超过 1TB 的数据)中。尽管 Facebook 已经构建了很多用于管理 LogDevice 集群的开源工具,但还没有将它们开源出来,除了一些基本的工具集。 LDShell 工具可用于从命令行管理集群,并且可以使用 LDQuery 命令来查看集群统计信息。

LogDevice 使用“日志记录”抽象来划分单个日志事件,为每个记录分配一个称为日志序列号(LSN)的唯一 ID。LSN 由“Sequencer”组件基于时间点生成,而时间点保存在 ZooKeeper 中。LogDevice 只能以追加的模式写入记录,也就是说,一旦写入记录就无法修改。与大多数日志存储系统一样,LogDevice 会“修剪”记录,即基于时间或空间策略的日志轮换。它还可以按需进行日志修剪。除此之外,对日志的存储时间没有限制。

LogDevice 通过在不同的计算机节点上存储每个日志记录的多个副本来实现高可用性,尤其是写入高可用性。每条记录可以跨20-30 个存储节点复制。不过,如果某些具有某条日志副本的计算机速度很慢或不可用,那么该日志写入次数的增加会限制吞吐量。LogDevice 可以自动检测哪些节点已失效,并不再往这些节点写入新记录。它试图通过尽可能多的复制尽减少硬件故障的影响,并尽可能快地“重建”丢失的副本。在重建过程中,“可以以每秒5-10GB 的速率进行恢复”。LogDevice 底层存储基于RocksDB,它也是由Facebook 开源的一个键值存储系统。

LogDevice 团队还必须应对其他挑战,他们发现,LogDevice 的用户会执行回填(backfill),请求几个小时或几天内的旧数据。这些请求由使用 LogDevice 日志的下游服务发出,当这些服务从故障中恢复并重新处理日志时就会发生回填。LogDevice 通过在“节点集”之间分摊读取负载来应对这些读取高峰。

LogDevice 可以与 Apache BookKeeper Apache Kafka 等其他日志存储系统进行对比。其中与 Kafka 的主要区别似乎是LogDevice 将计算和存储进行了分离,主要是为了应对Facebook 规模的日志。LogDevice 是用C++ 开发的,并托管在 GitHub 上。

查看英文原文 Facebook Open Sources LogDevice - a Distributed Data Store for Log Storage

2018-10-08 10:232086
用户头像

发布了 731 篇内容, 共 466.9 次阅读, 收获喜欢 2006 次。

关注

评论 1 条评论

发布
暂无评论
发现更多内容

模块一作业

杨波

「架构实战营」

当心,你搞的Scrum可能是小瀑布

华为云开发者联盟

Scrum 敏捷开发 软件开发 瀑布

10年资深架构师分享 | 普通程序员向架构师进阶之路

云智慧AIOps社区

程序员人生 高薪 架构师 技术分享 职场发展

轻盈潇洒卓然不群,敏捷编辑器Sublime text 4中文配置Python3开发运行代码环境(Win11+M1 mac)

刘悦的技术博客

Python ide 编辑器 Python3 Sublime

在 AWS 上运行 CAE 工作负载的五个原因。

亚马逊云科技 (Amazon Web Services)

产品 计算机

Linux下网络编程-UDP协议探测在线好友

DS小龙哥

4月月更

企业实施知识管理的建议

小炮

企业知识管理

云智慧 CTO 张博:智能运维场景中的时序数据库选型与挑战 | Apache IoTDB Talk

Apache IoTDB

模块一作业

Stefan

系统架构

cdr2022下载百度网盘

茶色酒

cdr2022

What's new in dubbo-go-pixiu 0.5.0

apache/dubbo-go

云原生 dubbo 微服务网关 dubbo-go

《软件开发的201个原则》思考:5. 不要试图通过改进软件实现高质量

非晓为骁

个人成长 软件工程 软件开发

阿里架构师巩宁:IoTDB 在阿里云智能制造业务中的实践 | Apache IoTDB Talk

Apache IoTDB

微信业务架构图&学生管理系统毕设架构设计

大眼喵

「架构实战营」

模块一

Geek_5hnu3d

谈谈有什么方法可以快捷实现多场景下的线程安全

华为云开发者联盟

Java volatile 多线程 线程安全

微信业务架构图

dan629xy

架构实战营

在 2040 年前,实现净零碳排放

亚马逊云科技 (Amazon Web Services)

方法论 亚马逊

Java培训-实现定时任务的几种方式

@零度

Java

做个企业官网大概多少钱.?

源字节1号

微信小程序 前端开发 后端开发 网站开发

微信业务架构和学生管理系统

锎心😌😌😌

架构实战营

“学生管理系统”毕设架构设计

鱼恨水

极客时间

【直播回顾】OpenHarmony知识赋能第四期第四课——音频驱动开发

OpenHarmony开发者

OpenHarmony HDF框架 音频驱动开发

对话LigaAI创始人周然:在研发SaaS赛道,「颠覆」Jira | PLG十人谈

LigaAI

SaaS LigaAI 研发协作平台

命令模式及其在Apache IoTDB中的应用丨社区分享

Apache IoTDB

[Day5]-[滑动窗口] 处理字符串

方勇(gopher)

LeetCode 数据结构与算法

PMC 乔嘉林:基于开放数据文件格式的时序数据库 | Apache IoTDB Talk

Apache IoTDB

架构训练营模块一作业

小马

#架构训练营

DevEco Device Tool 3.0 Release新版本发布,支持多人共享开发、源码级调试

HarmonyOS开发者

HarmonyOS DevEco Device Tool

博文推荐|深入解析 BookKeeper 多副本协议(一)

Apache Pulsar

开源 云原生 中间件 bookKeeper Apache Pulsar

突破数据分析瓶颈,寻因生物单细胞测序数据分析迈入云时代

阿里云弹性计算

虚拟化 持久内存 基因测序

Facebook开源分布式日志存储系统LogDevice_Meta_Hrishikesh Barua_InfoQ精选文章