【QCon】精华内容上线92%,全面覆盖“人工智能+”的典型案例!>>> 了解详情
写点什么

Yelp 开源数据管道项目最新组件——数据管道客户端库

  • 2017-01-12
  • 本文字数:1002 字

    阅读完需:约 3 分钟

2016 年底,Yelp开源了他们基于Python 和Apache Kafka 的数据管道客户端库。该库提供了一个发布和消费数据管道主题的接口。之前的讨论涉及Yelp 的数据管道组件以及分布式服务数据集成所面临的挑战,也就是 N+1 问题梅特卡夫定律

客户端库只是最新发布的一个 Yelp 数据管道组件。对于创建 Yelp 数据管道的动机和原因,据 Yelp 报道,切换到新的数据管道每年为他们节省了 1000 万美元。Yelp 工程副总裁 Jason Fennel 表示:

我们的动力产生于我们考察自己的数据仓库时。我们将所有的数据都集中在一起,供业务和战略人员以数据为驱动制定销售战略或产品战略。过去,那个过程极其费力。对于 MySQL 中的每一张表,我们的工程师都必须把它取出来存入那个数据仓库。那需要几天甚至是几周的工作……我们开始考察我们的数据仓库。把我们所有的数据都存进去需要 10 到 15 年的时间,但我们希望可以快点。即使把我们在这个管道上投入的时间和精力考虑在内,我认为,我们通过构建这个系统节省了 1000 万的工程成本。一旦我们接入了 Salesforce,那个数值就更大了。

服务通过客户端库从管道消费数据,在 Yelp,我们将这些数据输入类似 Salesforce RedShift Marketo 这样的目标。据报道,该库处理 Kafka 主题名称、加密和客户划分。通过一个消息代理来集中化服务通信并执行不可变的版本方案,这有助于保护下游消费者,也是更广泛的数据管道方案背后一个主要的动机。

例如,服务背后的物理变化或者从上游 MySQL 数据库加载数据的业务逻辑可以通过 Yelp 的 MySql streamer 以流的方式传输到 Kafka。 Schematizer 和数据管道客户端注册主题的模式、数据类型和格式,将消息封装到相关元数据中,并为下游消费实现版本控制。元数据封装器可以确保各种负载类型的消息和 kafka 主题的一致性,但是,负载内容本身可以用于变更数据捕获,并针对下游更新使用了 Kafka和日志压缩

新管道大大缩短了上游更新和数据库更新之间的端到端时间。Fennell 指出:

我们设法将一个需要用长达三周的时间获取数据的过程压缩到了几秒……我们开始加入其他类型的东西。不只是 Salesforce,还有 Redshift,我们的许多业务战略人员都在使用它。随着我们连接其他类似 MySQL 的东西,日志也进入了我们的数据管道,Kafka 构成了这一核心路由层,这意味着,我们每额外增加一个数据源受到的影响就会倍增。

查看英文原文 Yelp Open-Sources Latest in Data Pipeline Project, Data Pipeline Client Library

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2017-01-12 18:001674
用户头像

发布了 1008 篇内容, 共 372.2 次阅读, 收获喜欢 340 次。

关注

评论

发布
暂无评论
发现更多内容

第十一周总结

孤星

什么是安全架构《一》

I

安全架构 企业安全 安全治理 应用安全

想去华为、阿里、腾讯等大厂但又害怕面试?看这一篇就够了

Java架构师迁哥

史上最强鸿蒙教程来袭!2021年最新Android面试精讲,赶紧收藏!

欢喜学安卓

android 程序员 面试 移动开发

week11-作业二根据当周学习情况,完成一篇学习总结

未来已来

大作业2

Yangjing

架构师训练营第 1 期

作业-第11周

arcyao

Java并发编程实战(1)- 并发程序的bug源头

技术修行者

Java 多线程 并发

1499飞天茅台抢购脚本教程、问题与解决方案汇总目录【淘宝-天猫超市、京东】

谙忆

飞天茅台 脚本抢购

第六周学习总结

Binary

导致系统不可用的原因有哪些?保障系统稳定高可用的方案有哪些?请分别列举并简述。

落朽

Week11 安全稳定

evildracula

学习 架构

第十一周学习总结

晴空万里

架构师训练营第二期 Week 11 总结

bigxiang

KubeSphere 正式入驻 AWS Quick Start,服务全球用户云原生落地

亚马逊云科技 (Amazon Web Services)

云计算 云原生 AWS

架构师训练营大作业二

FG佳

架构师训练营大作业 (一)

orchid9

架构师训练营 week11 学习笔记

花果山

极客时间架构师培训 1 期 - 大作业一

Kaven

什么是安全架构《二》

I

安全架构 企业安全 安全治理 基础安全

大作业1

Yangjing

架构师训练营第 1 期

什么是安全架构《三》

I

信息安全 数据安全 安全架构 企业安全 安全治理

排队打饭:公平锁和非公平锁(面试)

叫练

synchronized ReentrantLock lock 公平锁 非公平锁

京东城市时空数据引擎JUST亮相中国数据库技术大会

京东数科风险算法与技术

京东

第六周作业&总结

胡益

第十一周作业

孤星

开发人员必学!2021年最新Android面试精讲,搞懂这些直接来阿里入职

欢喜学安卓

android 程序员 面试 移动开发

架构师训练营大作业 (二)

orchid9

架构师训练营第二期 Week 11 作业

bigxiang

架构师训练营 week11 课后作业

花果山

极客时间架构师培训 1 期 - 大作业二

Kaven

Yelp开源数据管道项目最新组件——数据管道客户端库_数据库_Dylan Raithel_InfoQ精选文章