写点什么

应对 PB 级数据分析的挑战,领英使用了 Apache Pinot 加 Kafka 的数据架构

  • 2020-07-13
  • 本文字数:1085 字

    阅读完需:约 4 分钟

应对PB级数据分析的挑战,领英使用了Apache Pinot加Kafka的数据架构

本文最初发布于 Apache Pinot 开发博客,由 InfoQ 中文站翻译并分享。


曾几何时,一家名为领英的互联网公司面临着无法实时分析 PB 级联网数据的挑战。由于是第一次出现这样的问题,所以只有一个解决办法。该公司组建了一支有才华的工程师团队,并指派他们为这项工作开发合适的工具。如今,这个工具被称为 Apache Pinot。


曾几何时,一家名为领英的互联网公司面临着无法实时分析 PB 级联网数据的挑战。由于是第一次出现这样的问题,所以只有一个解决办法。该公司组建了一支有才华的工程师团队,并指派他们为这项工作开发合适的工具。如今,这个工具被称为Apache Pinot


Pinot 开始处理这个世界上最大的在线社交网络之一的传奇创新的遗留问题。在过去的几十年里,这家硅谷的科技巨头帮助了世界各地数以亿计的人找到了正确的职业生涯发展之路。如今,作为一家微软公司,领英一直在保证同事们之间的联系,伴随他们经历成功与失败,以及开启更好的职业生涯。



乍听起来可能有点奇怪,一个名为“谁看过我的资料”的功能会催生出一些最流行的开源工具,而这些工具正在改变公司构建和操作软件的方式。



Pinot 是 Apache 最新孵化的项目,它追随了KafkaHelixSamza等巨头的脚步,其中,Kafka正迅速成为云原生应用的支柱。如果软件确实正在吞噬世界,那么 Apache Kafka 可能要负责吞噬私有数据中心。


在 Kafka 登上行业标准消息代理的舞台之前,有硬软件问题的大公司除了运行自己的硬件之外几乎别无选择。但现如今,在 Kafka 这样的开源工具的帮助下,开发者可以在数据中心的虚拟机和云原生应用之间架起一座桥梁


Kafka 的秘诀是什么?它将从许多不同的相互分离的系统收集的事件流转换成可以像数据库一样查询的主题,而不必真得转换成数据库。


尽管作为一种“可移植数据仓库”,Kafka 代表了一项重大的进步,但大多数应用程序开发人员仍在努力将事件流转换为复杂的查询模型,而不用去了解 Kafka 流的流入流出。


现在,Pinot的目标更进一步,它在 Kafka 之上为开发者提供了一个他们熟悉的数据库,将事件流转换为可查询的数据模型。最终的结果是,在构建和操作他们的应用程序时,开发人员就不必再考虑如何获得 Kafka 的所有好处,而只需要关注如何编写对用户最有价值的代码。


由于 Kafka 既是消息代理又是事务日志,所以它也经常被用作数据库,这就给开发人员增加了负担,他们需要维护主题中事件流的数据投影。


Pinot 提供的是一种工具,使开发者无需考虑如何使用 Kafka 主题来构建和维护来自事件流的可查询投影。事实证明,考虑事件流只会降低开发过程的速度,而且代价是数据可移植性。


查看英文原文:Moving developers up the stack with Apache Pinot


2020-07-13 17:012676

评论

发布
暂无评论
发现更多内容

为什么非要做个app

张老蔫

28天写作

2021年终总结:如何快速学完多个课程

石云升

知识付费 年终总结 28天写作 12月日更

MSSQL 执行计划

lixiaofeng

SQL优化 签约计划第二季

学习 27 门编程语言的长处,提升你的 Python 代码水平

Python猫

Python

端口是什么东西?为什么老是被黑客利用

喀拉峻

黑客 网络安全 安全

MySQL Xenon源码阅读-01

lixiaofeng

MySQL MySQL 高可用 签约计划第二季

MSSQL索引优化原理

lixiaofeng

SQL优化 签约计划第二季

MySQL MGR + 只读节点高可用

lixiaofeng

MySQL 高可用 签约计划第二季

MongoDB自动化运维

lixiaofeng

mongodb 签约计划第二季

LeetCode刷题开源手册

入门小站

Leet Code

Spring AOP(三) Advisor类架构

程序员历小冰

28天写作 spring aop 12月日更

SQL SERVER的统计信息

lixiaofeng

SQL优化 签约计划第二季

Feign入门篇

李子捌

微服务 28天写作 12月日更

Volatile 原理五:禁止指令重排是什么?

悟空聊架构

volatile 28天写作 悟空聊架构 12月日更 禁止指令重排

谈跨域资源共享之CORS

devpoint

jsonp CORS 12月日更

你真的了解inner join吗

lixiaofeng

签约计划第二季

读《思辨与立场》-01定义

wood

28天写作 批判性思维 思辨与立场

Go+ 上下文处理教程(5.3)

liuzhen007

28天写作 12月日更

腾讯云容器安全已支持检测Apache Log4j2漏洞

腾讯安全云鼎实验室

腾讯云安全、漏洞分析

聚集索引数据写入

lixiaofeng

索引优化 签约计划第二季

从WAVE SUMMIT+2021,寻找新一代AI人不可或缺的“凝视”

脑极体

“朋友圈”又添好友,DataPipeline与统信服务器操作系统完成产品互认证

DataPipeline数见科技

大数据 操作系统 中间件 数据同步 数据融合

【行业观察】AI数据标注行业

mtfelix

28天写作

MySQL MGR + 自研脚本实现高可用

lixiaofeng

MySQL 高可用 签约计划第二季

趣谈 iOS Universal Link

37手游iOS技术运营团队

ios universal link

golang 脚本实时监控错误日志

lixiaofeng

mongodb MySQL 运维 签约计划第二季

C#中的结构与类

喵叔

28天写作 12月日更

Spring Native 0.11发布,带来新的AOT引擎和性能优化

Robert Lu

Java GraalVM

漏洞学习篇:CVE漏洞复现

网络安全学海

黑客 网络安全 信息安全 渗透测试 漏洞修复

“元宇宙”,让人在数据空间“复活”

xcbeyond

28天写作 云宇宙 12月日更

前端架构师破局技能,Node.js 落地 WebSocket 实践

杨成功

架构 前端 架构师 nodejs websocket 签约计划第二季

应对PB级数据分析的挑战,领英使用了Apache Pinot加Kafka的数据架构_架构_Kenny Bastani_InfoQ精选文章