2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

Facebook 开源分布式日志存储系统 LogDevice

  • 2018-10-08
  • 本文字数:1096 字

    阅读完需:约 4 分钟

Facebook开源了他们的内部分布式日志存储项目LogDevice。它通过复制、持久日志存储和故障恢复实现写入高可用性。

Facebook 的大多数需要记录日志应用程序都需要写入高可用性、持久的日志存储以及在性能和延迟方面要求各不相同的工作负载。另一个非常重要的要求是能够承受硬件故障。Facebook 有一个叫作 Scribe 的旧项目侧重于将日志聚合到集中式存储中,但这种方案存在数据丢失的情况。Scribe 现在使用 LogDevice 作为日志存储后端。

Facebook 将 LogDevice 用在数据中心内部的流式处理管道、数据库索引更新的发布、机器学习管道、复制管道和持久任务队列(每秒摄取超过 1TB 的数据)中。尽管 Facebook 已经构建了很多用于管理 LogDevice 集群的开源工具,但还没有将它们开源出来,除了一些基本的工具集。 LDShell 工具可用于从命令行管理集群,并且可以使用 LDQuery 命令来查看集群统计信息。

LogDevice 使用“日志记录”抽象来划分单个日志事件,为每个记录分配一个称为日志序列号(LSN)的唯一 ID。LSN 由“Sequencer”组件基于时间点生成,而时间点保存在 ZooKeeper 中。LogDevice 只能以追加的模式写入记录,也就是说,一旦写入记录就无法修改。与大多数日志存储系统一样,LogDevice 会“修剪”记录,即基于时间或空间策略的日志轮换。它还可以按需进行日志修剪。除此之外,对日志的存储时间没有限制。

LogDevice 通过在不同的计算机节点上存储每个日志记录的多个副本来实现高可用性,尤其是写入高可用性。每条记录可以跨20-30 个存储节点复制。不过,如果某些具有某条日志副本的计算机速度很慢或不可用,那么该日志写入次数的增加会限制吞吐量。LogDevice 可以自动检测哪些节点已失效,并不再往这些节点写入新记录。它试图通过尽可能多的复制尽减少硬件故障的影响,并尽可能快地“重建”丢失的副本。在重建过程中,“可以以每秒5-10GB 的速率进行恢复”。LogDevice 底层存储基于RocksDB,它也是由Facebook 开源的一个键值存储系统。

LogDevice 团队还必须应对其他挑战,他们发现,LogDevice 的用户会执行回填(backfill),请求几个小时或几天内的旧数据。这些请求由使用 LogDevice 日志的下游服务发出,当这些服务从故障中恢复并重新处理日志时就会发生回填。LogDevice 通过在“节点集”之间分摊读取负载来应对这些读取高峰。

LogDevice 可以与 Apache BookKeeper Apache Kafka 等其他日志存储系统进行对比。其中与 Kafka 的主要区别似乎是LogDevice 将计算和存储进行了分离,主要是为了应对Facebook 规模的日志。LogDevice 是用C++ 开发的,并托管在 GitHub 上。

查看英文原文 Facebook Open Sources LogDevice - a Distributed Data Store for Log Storage

2018-10-08 10:232362
用户头像

发布了 731 篇内容, 共 481.1 次阅读, 收获喜欢 2008 次。

关注

评论 1 条评论

发布
暂无评论
发现更多内容

2025 OSCAR丨与创新者同频!Apache RocketMQ 邀您共赴开源之约

阿里巴巴云原生

阿里云 RocketMQ 云原生

阿里云DLF 3.0:面向AI时代的智能全模态湖仓管理平台

阿里云大数据AI技术

阿里云 LakeHouse DLF

openvela首届全球开发者大会圆满落幕,NuttX创始人Greg亲临现场,共话AIoT生态

新消费日报

大模型时代的广告营销变革与实践

京东零售技术

百度百科词条总量突破3000万,联合《大学科普》等多机构推出科普专刊

科技大数据

轮次检测模型 VoTurn-80M 开源,多模态融合架构;OpenAI 收购桌面助手 Sky:实时识别屏幕自然语言交互丨日报

声网

工业管理 项目管理经验总结(27)

万里无云万里天

项目管理 工业 工厂运维

在nginx中通过多级代理支持grpc协议

天翼云开发者社区

CDN

捷行第4期读书会开启啦

ShineScrum

#读书

实战案例|借助高德开放平台实现智慧位置服务:路线导航的开发与实践

高德开放平台

高德地图 高德开放平台

一文读懂数据湖、数据仓库与ETL的关系

谷云科技RestCloud

数据仓库 数据湖 数据同步 ETL

谁能想到快手也开始卷AI编程了?上手体验了下,有点东西!

苍何

京东商品详情API接口(标题|主图|SKU|价格)

Datafox(数据狐)

京东API 京东商品详情API 京东数据采集 京东数据分析

ETLCloud数据集成平台:破解制造业数据困局的智能引擎

谷云科技RestCloud

数据传输 数据同步 ETL 数据集成平台

吉利汽车携手阿里云函数计算,打造新一代 AI 座舱推理引擎

阿里巴巴云原生

阿里云 Serverless 云原生 吉利汽车

2026北京国际机器人技术展览会

AIOTE智博会

机器人展 智能机器人展 人形机器人展 北京人形机器人展

5 分钟入门微信小游戏开发 (五)

扬_帆_起_航

成语接龙 微信小游戏

医科+AI教学转型,和鲸智学一体机助力培养懂数据、通方法、能解决实际问题的复合型人才

ModelWhale

AI 智慧医疗 大模型 高等教育 医学

国产数据库的AI战事

脑极体

AI

大模型 | VLA 初识及在自动驾驶场景中的应用

地平线开发者

自动驾驶; 算法工具链 地平线征程6

AI票据审核系统:重塑财务流程的智能风控专家

上海拔俗

Serverless 应用引擎 SAE:为传统应用托底,为 AI 创新加速

阿里巴巴云原生

阿里云 Serverless AI 云原生

扛起技术大梁的零售校招生们 | 1024技术人特别篇

京东零售技术

通过 Grafana 使用 PromQL 查询分析观测云数据最佳实践

观测云

Grafana

华为擎云亮相第86届中国教育装备展示会,“双真双易”场景化方案推动教育数字化

科技大数据

三种 Badcase 精度验证方案详解与 hbm_infer 部署实录

地平线开发者

自动驾驶; 算法工具链 地平线征程6

从“天书”到源码:HarmonyOS NEXT 崩溃堆栈解析实战指南

阿里巴巴云原生

阿里云 云原生 可观测

我们做了一个让AI开发者「真香」的数据库- Relyt ONE

AI数据云Relyt

全文检索 postgres #数据分析 #向量数据库 #OLAP

Facebook开源分布式日志存储系统LogDevice_Meta_Hrishikesh Barua_InfoQ精选文章