Yelp开源数据管道项目最新组件——数据管道客户端库_数据库_Dylan Raithel_InfoQ精选文章



 写点什么

登录/注册

2016 年底，Yelp开源了他们基于Python 和Apache Kafka 的数据管道客户端库。该库提供了一个发布和消费数据管道主题的接口。之前的讨论涉及Yelp 的数据管道组件以及分布式服务数据集成所面临的挑战，也就是 N+1 问题和梅特卡夫定律。

客户端库只是最新发布的一个 Yelp 数据管道组件。对于创建 Yelp 数据管道的动机和原因，据 Yelp 报道，切换到新的数据管道每年为他们节省了 1000 万美元。Yelp 工程副总裁 Jason Fennel 表示：

我们的动力产生于我们考察自己的数据仓库时。我们将所有的数据都集中在一起，供业务和战略人员以数据为驱动制定销售战略或产品战略。过去，那个过程极其费力。对于 MySQL 中的每一张表，我们的工程师都必须把它取出来存入那个数据仓库。那需要几天甚至是几周的工作……我们开始考察我们的数据仓库。把我们所有的数据都存进去需要 10 到 15 年的时间，但我们希望可以快点。即使把我们在这个管道上投入的时间和精力考虑在内，我认为，我们通过构建这个系统节省了 1000 万的工程成本。一旦我们接入了 Salesforce，那个数值就更大了。

服务通过客户端库从管道消费数据，在 Yelp，我们将这些数据输入类似 Salesforce 、 RedShift 和 Marketo 这样的目标。据报道，该库处理 Kafka 主题名称、加密和客户划分。通过一个消息代理来集中化服务通信并执行不可变的版本方案，这有助于保护下游消费者，也是更广泛的数据管道方案背后一个主要的动机。

例如，服务背后的物理变化或者从上游 MySQL 数据库加载数据的业务逻辑可以通过 Yelp 的 MySql streamer 以流的方式传输到 Kafka。 Schematizer 和数据管道客户端注册主题的模式、数据类型和格式，将消息封装到相关元数据中，并为下游消费实现版本控制。元数据封装器可以确保各种负载类型的消息和 kafka 主题的一致性，但是，负载内容本身可以用于变更数据捕获，并针对下游更新使用了 Kafka流和日志压缩。

新管道大大缩短了上游更新和数据库更新之间的端到端时间。Fennell 指出：

我们设法将一个需要用长达三周的时间获取数据的过程压缩到了几秒……我们开始加入其他类型的东西。不只是 Salesforce，还有 Redshift，我们的许多业务战略人员都在使用它。随着我们连接其他类似 MySQL 的东西，日志也进入了我们的数据管道，Kafka 构成了这一核心路由层，这意味着，我们每额外增加一个数据源受到的影响就会倍增。

查看英文原文： Yelp Open-Sources Latest in Data Pipeline Project, Data Pipeline Client Library

评论

发布

暂无评论

看完这5个核心功能，你会明白低代码平台到底能解决什么问题！

J2PaaS低代码平台

低代码低代码开发低代码平台

ONES Automation 流程自动化解决方案

react源码解析6.legacy模式和concurrent模式

React React Hooks

建立合格的跨职能团队，你需要知道这些！

禅道项目管理

团队合作共赢

一页纸需求的应对方法 —— 五步法

业务价值角色梳理术语定义主业务流程梳理纲举目张

数据产品经理实战-指标体系搭建

数据产品经理数据产品指标体系指标管理

专家推荐五个免费的网络安全工具

网络安全安全渗透测试渗透

元气部落盲盒小程序开发芒趣盲盒app开发

社交泛娱出海新引擎，融云「六化」能力助开发者轻装上阵

融云 RongCloud

游戏出海出海社交出海

Linux一学就会之Vim编辑器的使用和Xmanager工具的使用。

vim Linux centos 运维 ext4

你有一份「写作跨年」邀请函请查收 | 28天写作计划

写作技术创作 28天写作内容创作热门活动

WICC 广州高峰对话：为开发者标注「航海地图」

融云 RongCloud

开发游戏社交泛娱乐出海

Python代码阅读（第66篇）：两个列表的包含关系

Python Code 列表阅读代码 Python初学者

创新模式驱动生产力提升，融云社交场景化 SDK 探索

融云 RongCloud

直播 sdk 语聊房场景化

【IT运维小知识】虚拟化vCenter是什么意思？有啥优势？

高维数据世界｜基于高维稀疏矩阵的潜在变量模型研究

索信达控股

算法变量模型模型介绍高维数据

英特尔宋继强：秉持三个坚持，穿越技术周期，构建未来技术生态

科技新消息

手把手带你写一个 Vue3 的自定义指令

行业视野 | ONES CEO 王颖奇对话极客公园张鹏

SaaS SaaS平台

”微博评论“的高性能高可用计算架构设计

架构实战营

读《区块链技术及应用第二版》华为区块链发展思路、双引擎战略及华为区块链特点和使用有感

区块链华为链华为区块链服务

新思科技BSIMM12报告显示开源、云、容器安全活动增长显著

InfoQ_434670063458

新思科技软件安全 BSIMM

【最全攻略】玩转2021LIGHT开发者云大会

恒生LIGHT云社区

技术开发行业行业大会

ONES Talk | 我们为什么选择最难走的软件之路

APISIX-Datadog 插件发布，助力用户提高系统的可观测性

API7.ai 技术团队

云原生可观测性 API网关 APISIX Datadog

Java&Go三种HTTP客户端性能测试

Java 性能测试测试框架 Go 语言 FunTester

Rust 元宇宙 9 —— 库和序列化

混合云管理软件用哪个品牌好？咨询电话多少？

从双十一的物流大战，看全球通信网络的低延迟优化

融云 RongCloud

音视频通信低延迟全球通信

react源码解析5.jsx&核心api

React React Hooks

字节跳动亿级DAU客户端发布最佳实践

字节跳动终端技术