写点什么

每日 24 亿事件处理:Airbnb 的 Riverbed 技术解析

  • 2023-10-18
    北京
  • 本文字数:934 字

    阅读完需:约 3 分钟

大小:464.63K时长:02:38
每日24亿事件处理:Airbnb的Riverbed技术解析

Airbnb开发的Riverbed是一个Lambda风格的数据框架,用于生成和管理分布式物化视图。该框架支持 50 多个涉及重度数据读取的应用场景,在这些场景中,数据来自 Airbnb 面向服务架构(SOA)平台的多个数据源。它分别使用 Apache Kafka 和 Apache Spark 作为在线和离线处理组件。


Airbnb 观察发现,一些跨多个不同数据存储的复杂查询是导致该平台主要功能出现延迟的罪魁祸首。开发团队不能使用数据库提供的标准的物化视图,因为计算物化视图所需的数据不在单个数据库中。


开发团队尝试使用一种技术来创建分布式物化视图,该技术使用了变更数据捕获(CDC)、流处理和专门用来存储最终结果的数据库。他们仔细权衡了数据处理架构:


Lambda 和 Kappa 是两种实时数据处理架构。Lambda 结合了批处理和实时处理,可以有效地处理大数据量,而 Kappa 仅专注于流处理。Kappa 的简单性提供了更好的可维护性,但在实现回填机制和确保数据一致性方面存在挑战,特别是对于乱序事件。


Riverbed 框架采用了 Lambda 架构,并提供了一种声明式的方式,使用GraphQL为在线(实时事件)和离线(数据回填)组件定义数据查询和计算逻辑。该框架负责并发、版本控制和数据正确性保证,以及与基础设施组件的集成。



Riverbed 的流式处理(来源:Airbnb工程博客)


对于实时处理,Riverbed 使用Apache Kafka消费数据源发出的变更数据捕获(CDC)事件来进行消息传递。来自 CDC 的事件通过执行用 GraphQL 定义的聚合逻辑来更新物化视图,结果文档存储在物化视图数据库中。为了提高效率,处理是高度并行化和批量化的。


流式管道避免了竞态条件,因为 CDC 事件在 Apache Kafka 中基于物化视图文档的标识符被重新分区,因此对物化视图的更新是顺序完成的。此外,在在线(实时)和离线(批处理)处理之间使用乐观并发控制来避免并发写和潜在的数据不一致。



Riverbed 的批处理(来源:Airbnb工程博客)


Riverbed 支持数据回填和协调,以防出现因丢失 CDC 事件导致的实时处理问题。这一部分使用Apache Spark来处理存储每日快照的数据仓库中的数据。该框架基于在 Riverbed 中配置的 GraphQL 定义生成Spark SQL


Riverbed 目前每天处理 24 亿个事件,写入 3.5 亿个文档,处理与 Airbnb 的支付、搜索、评论、行程和内部产品等功能相关的 50 多个物化视图。


原文链接

https://www.infoq.com/news/2023/10/airbnb-riverbed-introduction/

2023-10-18 08:0012590

评论

发布
暂无评论
发现更多内容

对接HiveMetaStore,拥抱开源大数据

华为云开发者联盟

大数据 华为云 华为云开发者联盟 华为云GaussDB(DWS) 企业号2024年4月PK榜

西安站开营!AI 编码助手通义灵码帮大学生“整活儿”

阿里云云效

阿里云 云原生 通义灵码

全国独家线下面授 | 杭州·大规模敏捷LeSS认证6月13-15日开班

ShineScrum

less 大规模敏捷LeSS 吕毅老师

淘宝商品详情API接口:全面解析商品属性与数据

技术冰糖葫芦

api 货币化 API 接口 API 文档 API】 pinduoduo API

企业未来都会用上云原生开发工具吗?它有什么优势

是但求其发

AI 云原生 K8s 多集群管理

用海外云手机做tiktok怎样保障安全性?

Ogcloud

云手机 海外云手机 tiktok云手机 国外云手机 tiktok运营

HCDG北京站精彩回顾 | 鸿蒙千帆起,开启万物互联新纪元

华为云开发者联盟

鸿蒙 物联网 华为云 华为云开发者联盟 企业号2024年4月PK榜

Memecoin再迎爆发:是本轮牛市大反弹的开始吗?

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

流水线运行出错排查难?AI 来帮你

阿里云云效

阿里云 云原生 云效

流水线运行出错排查难?AI 来帮你

阿里巴巴云原生

阿里云 云原生 云效

TapData + 实时数仓:实时数据如何赋能船舶制造业,助力数字化应用升级和科学管理运营

tapdata

大数据 实时数仓场景实践

拥抱AI技术:5月18-19日 全球金牌CSM认证课程 · Jim老师引导讨论AI & Agility话题

ShineScrum

软件测试学习笔记丨Selenium执行JavaScript脚本

测试人

JavaScript 软件测试 自动化测试 测试开发

西安站开营!AI 编码助手通义灵码帮大学生“整活儿”

阿里巴巴云原生

阿里云 云原生 通义灵码

京东广告研发 —— 京东推荐广告排序机制演化

京东科技开发者

加密世界:NFT、DeFi和游戏的热点新闻概览

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

5月10-11日·大连线下·CSM认证【提前报名特惠】“全球金牌课程”CST导师亲授

ShineScrum

CSM CSM认证 cst 线下授课

选择合适的监控观测平台,为业务出海合规建设减负

观测云

监控 出海

离开工位老是忘记锁屏?试着让电脑自动完成这事吧!

京东科技开发者

预测分析中的场景管理,适应不断变化的市场环境

智达方通

企业管理 全面预算管理 财务管理 预算预测分析 场景管理

风险防不胜防?看YashanDB如何守护你的数据库安全(上篇)

YashanDB

指标+AI:迈向智能化,让指标应用更高效

袋鼠云数栈

指标 指标管理 指标平台 指标开发 指标+ai

高可用 - 隔离原则

京东科技开发者

Flink 作业管理器:核心功能、角色与责任详解

木南曌

flink 实时计算

企业规模扩大,SD-WAN实现跨省快速组网

Ogcloud

网络协议 网络加速 SD-WAN 企业组网 SD-WAN组网

EMQX Platform 产品发布会回顾:全球部署与无缝数据集成,驱动汽车行业智能化转型

EMQ映云科技

mqtt mqtt broker

Python 中删除文件夹下文件的方法详解

霍格沃兹测试开发学社

每日24亿事件处理:Airbnb的Riverbed技术解析_业务架构_Rafal Gancarz_InfoQ精选文章