在 2025 收官前,看清 Data + AI 的真实走向,点击查看 BUILD 大会精华版 了解详情
写点什么

Facebook 开源分布式日志存储系统 LogDevice

  • 2018-10-08
  • 本文字数:1096 字

    阅读完需:约 4 分钟

Facebook开源了他们的内部分布式日志存储项目LogDevice。它通过复制、持久日志存储和故障恢复实现写入高可用性。

Facebook 的大多数需要记录日志应用程序都需要写入高可用性、持久的日志存储以及在性能和延迟方面要求各不相同的工作负载。另一个非常重要的要求是能够承受硬件故障。Facebook 有一个叫作 Scribe 的旧项目侧重于将日志聚合到集中式存储中,但这种方案存在数据丢失的情况。Scribe 现在使用 LogDevice 作为日志存储后端。

Facebook 将 LogDevice 用在数据中心内部的流式处理管道、数据库索引更新的发布、机器学习管道、复制管道和持久任务队列(每秒摄取超过 1TB 的数据)中。尽管 Facebook 已经构建了很多用于管理 LogDevice 集群的开源工具,但还没有将它们开源出来,除了一些基本的工具集。 LDShell 工具可用于从命令行管理集群,并且可以使用 LDQuery 命令来查看集群统计信息。

LogDevice 使用“日志记录”抽象来划分单个日志事件,为每个记录分配一个称为日志序列号(LSN)的唯一 ID。LSN 由“Sequencer”组件基于时间点生成,而时间点保存在 ZooKeeper 中。LogDevice 只能以追加的模式写入记录,也就是说,一旦写入记录就无法修改。与大多数日志存储系统一样,LogDevice 会“修剪”记录,即基于时间或空间策略的日志轮换。它还可以按需进行日志修剪。除此之外,对日志的存储时间没有限制。

LogDevice 通过在不同的计算机节点上存储每个日志记录的多个副本来实现高可用性,尤其是写入高可用性。每条记录可以跨20-30 个存储节点复制。不过,如果某些具有某条日志副本的计算机速度很慢或不可用,那么该日志写入次数的增加会限制吞吐量。LogDevice 可以自动检测哪些节点已失效,并不再往这些节点写入新记录。它试图通过尽可能多的复制尽减少硬件故障的影响,并尽可能快地“重建”丢失的副本。在重建过程中,“可以以每秒5-10GB 的速率进行恢复”。LogDevice 底层存储基于RocksDB,它也是由Facebook 开源的一个键值存储系统。

LogDevice 团队还必须应对其他挑战,他们发现,LogDevice 的用户会执行回填(backfill),请求几个小时或几天内的旧数据。这些请求由使用 LogDevice 日志的下游服务发出,当这些服务从故障中恢复并重新处理日志时就会发生回填。LogDevice 通过在“节点集”之间分摊读取负载来应对这些读取高峰。

LogDevice 可以与 Apache BookKeeper Apache Kafka 等其他日志存储系统进行对比。其中与 Kafka 的主要区别似乎是LogDevice 将计算和存储进行了分离,主要是为了应对Facebook 规模的日志。LogDevice 是用C++ 开发的,并托管在 GitHub 上。

查看英文原文 Facebook Open Sources LogDevice - a Distributed Data Store for Log Storage

2018-10-08 10:232439
用户头像

发布了 731 篇内容, 共 485.7 次阅读, 收获喜欢 2008 次。

关注

评论 1 条评论

发布
暂无评论
发现更多内容

YashanDB下载软件包方法

YashanDB

数据库 yashandb

TencentOS Server AI 全栈DeepSeek工具箱

TencentOS

2025 国内知名 RPA 厂商大剖析,企业该如何抉择?

Techinsight

RPA 金智维 AI Agent

DApp开发从入门到精通:以太坊/Solana公链生态实战解析

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

韩国互联网巨头 NAVER 如何借助 StarRocks 实现实时数据洞察

StarRocks

Clickhouse StarRocks #大数据 naver

通义灵码上新推理模型,快来体验数学和编程双冠王 Qwen2.5-Max

阿里巴巴云原生

阿里云 云原生 通义灵码 AI程序员 AI程序员体验官

通义灵码上新推理模型,快来体验数学和编程双冠王 Qwen2.5-Max

阿里云云效

阿里云 云原生 通义灵码 AI程序员 AI程序员体验官

Databend 产品月报(2025年2月)

Databend

IK Multimedia T-RackS 6 MAX for Mac:打造专业级音乐母带

小玖_苹果Mac软件

2025 财务 AI 浪潮来袭,这些工具你还不知道就 OUT 了!

Techinsight

AI RPA评测 AI Agent 财务办公

绝了!k3s (k8s) 安装 ollama 运行 deepseek 全流程揭秘,yaml全公开

福大大架构师每日一题

福大大架构师每日一题

Flink CDC + Hologres高性能数据同步优化实践

Apache Flink

大数据 flink 实时计算 hologres

IPv6改造:隧道技术的原理和优缺点分析

防火墙后吃泡面

财务数字化转型下,RPA 如何成为财务人的得力助手?

Techinsight

RPA 财务 RPA评测 财务关键 财务办公

质变科技AI-ready Data Cloud:生成式AI分析 VS ChatGPT

AI数据云Relyt

ChatGPT 生成式AI LLM ChatBI AI分析

3D LED屏幕的创新应用及未来发展方向

Dylan

应用 3D LED LED display LED显示屏

关注单店盈利模型!连锁餐饮数字化这么做

奇点云

大数据 零售 餐饮 连锁

YashanDB服务端安装(命令行)

YashanDB

数据库 yashandb

对比Jira/禅道后,我们为什么选择Leangoo做敏捷项目管理?

云端拾光

项目管理 敏捷研发 敏捷工具 看板工具 看板软件

质变科技AI-ready Data Cloud:生成式数据分析Relyt AI全球用户突破120万

AI数据云Relyt

数据分析 Datacloud AI分析 生成式AI分析 AI数据分析

2025 科技前沿!大模型与智能体的超强联动力大揭秘!

Techinsight

智能体 #大模型 AI 智能体

Facebook开源分布式日志存储系统LogDevice_Meta_Hrishikesh Barua_InfoQ精选文章