10 月 23 - 25 日,QCon 上海站即将召开,现在大会已开始正式报名,可以享受 8 折优惠 了解详情
写点什么

每日 24 亿事件处理:Airbnb 的 Riverbed 技术解析

  • 2023-10-18
    北京
  • 本文字数:934 字

    阅读完需:约 3 分钟

大小:464.63K时长:02:38
每日24亿事件处理:Airbnb的Riverbed技术解析

Airbnb开发的Riverbed是一个Lambda风格的数据框架,用于生成和管理分布式物化视图。该框架支持 50 多个涉及重度数据读取的应用场景,在这些场景中,数据来自 Airbnb 面向服务架构(SOA)平台的多个数据源。它分别使用 Apache Kafka 和 Apache Spark 作为在线和离线处理组件。


Airbnb 观察发现,一些跨多个不同数据存储的复杂查询是导致该平台主要功能出现延迟的罪魁祸首。开发团队不能使用数据库提供的标准的物化视图,因为计算物化视图所需的数据不在单个数据库中。


开发团队尝试使用一种技术来创建分布式物化视图,该技术使用了变更数据捕获(CDC)、流处理和专门用来存储最终结果的数据库。他们仔细权衡了数据处理架构:


Lambda 和 Kappa 是两种实时数据处理架构。Lambda 结合了批处理和实时处理,可以有效地处理大数据量,而 Kappa 仅专注于流处理。Kappa 的简单性提供了更好的可维护性,但在实现回填机制和确保数据一致性方面存在挑战,特别是对于乱序事件。


Riverbed 框架采用了 Lambda 架构,并提供了一种声明式的方式,使用GraphQL为在线(实时事件)和离线(数据回填)组件定义数据查询和计算逻辑。该框架负责并发、版本控制和数据正确性保证,以及与基础设施组件的集成。



Riverbed 的流式处理(来源:Airbnb工程博客)


对于实时处理,Riverbed 使用Apache Kafka消费数据源发出的变更数据捕获(CDC)事件来进行消息传递。来自 CDC 的事件通过执行用 GraphQL 定义的聚合逻辑来更新物化视图,结果文档存储在物化视图数据库中。为了提高效率,处理是高度并行化和批量化的。


流式管道避免了竞态条件,因为 CDC 事件在 Apache Kafka 中基于物化视图文档的标识符被重新分区,因此对物化视图的更新是顺序完成的。此外,在在线(实时)和离线(批处理)处理之间使用乐观并发控制来避免并发写和潜在的数据不一致。



Riverbed 的批处理(来源:Airbnb工程博客)


Riverbed 支持数据回填和协调,以防出现因丢失 CDC 事件导致的实时处理问题。这一部分使用Apache Spark来处理存储每日快照的数据仓库中的数据。该框架基于在 Riverbed 中配置的 GraphQL 定义生成Spark SQL


Riverbed 目前每天处理 24 亿个事件,写入 3.5 亿个文档,处理与 Airbnb 的支付、搜索、评论、行程和内部产品等功能相关的 50 多个物化视图。


原文链接

https://www.infoq.com/news/2023/10/airbnb-riverbed-introduction/

2023-10-18 08:0012401

评论

发布
暂无评论
发现更多内容

崎岖的矿山路:无人矿卡的那些难题与智变

脑极体

官方线索|2021长沙·中国1024程序员节

liuzhen007

1024我在现场

中科柏诚本地生活,助力银行完成数字金融转型

联营汇聚

数字货币钱包系统软件开发详情(源码)

Prometheus 查询操作符(二) 向量匹配

耳东@Erdong

Prometheus 10月月更

【架构实战营】模块一

衣谷

架构实战营

linux之lsof使用技巧

入门小站

Linux

docker 系列:基础入门

yuexin_tech

Docker

谈 C++17 里的 Factory 模式之二

hedzr

设计模式 工厂模式 Design Patterns factory pattern c++17

听说,99% 的 Go 程序员都被 defer 坑过

AlwaysBeta

golang defer panic recover Go 语言

科技热点周刊|GitLab 上市、LinkedIn 中国停止运营、Visual Studio 2022 正式版将发布

青云技术社区

云计算 云原生 云安全

【设计模式】第六篇 - 工厂方法模式

Brave

设计模式 工厂模式 10月月更

前端flex布局最全文档,工作学习中复习必备

你好bk

html css3 大前端 html/css

Spring Boot 两大核心原理

风翱

springboot 10月月更

架构实战营模块一作业

胡颖

架构实战营

python 类中的那些小技巧,滚雪球第四季收尾篇

梦想橡皮擦

10月月更

架构训练营-模块一

Geek_9de3de

架构实战营

从单体架构到微服务架构

看山

微服务 10月月更

Vue进阶(幺肆幺):Vue 计算属性 computed 方法内传参

No Silver Bullet

Vue 计算属性 10月月更

数字货币钱包软件系统开发简介(案例)

MyBatis原生批量插入的坑与解决方案!

王磊

mybatis springboot

模块一作业

bob

「架构实战营」

从Spring到Spring Boot

风翱

springboot 10月月更

Go 中 defer 关键字

baiyutang

golang 10月月更

【Flutter 专题】25 图解关乎 SQL 数据库的二三事(一)

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 10月月更

一场穿越千年的智能矿山“梦游记”

白洞计划

微服务中服务注册和发现的可行性方案

看山

微服务 10月月更

在线最小公倍数计算器

入门小站

工具

微信业务架构图

孙志强

架构实战营

【LeetCode】最长公共前缀Java题解

Albert

算法 LeetCode 10月月更

“技术·探索”技术作家英雄会带你开启不一样的1024!

博文视点Broadview

每日24亿事件处理:Airbnb的Riverbed技术解析_业务架构_Rafal Gancarz_InfoQ精选文章