写点什么

应对 PB 级数据分析的挑战,领英使用了 Apache Pinot 加 Kafka 的数据架构

  • 2020-07-13
  • 本文字数:1085 字

    阅读完需:约 4 分钟

应对PB级数据分析的挑战,领英使用了Apache Pinot加Kafka的数据架构

本文最初发布于 Apache Pinot 开发博客,由 InfoQ 中文站翻译并分享。


曾几何时,一家名为领英的互联网公司面临着无法实时分析 PB 级联网数据的挑战。由于是第一次出现这样的问题,所以只有一个解决办法。该公司组建了一支有才华的工程师团队,并指派他们为这项工作开发合适的工具。如今,这个工具被称为 Apache Pinot。


曾几何时,一家名为领英的互联网公司面临着无法实时分析 PB 级联网数据的挑战。由于是第一次出现这样的问题,所以只有一个解决办法。该公司组建了一支有才华的工程师团队,并指派他们为这项工作开发合适的工具。如今,这个工具被称为Apache Pinot


Pinot 开始处理这个世界上最大的在线社交网络之一的传奇创新的遗留问题。在过去的几十年里,这家硅谷的科技巨头帮助了世界各地数以亿计的人找到了正确的职业生涯发展之路。如今,作为一家微软公司,领英一直在保证同事们之间的联系,伴随他们经历成功与失败,以及开启更好的职业生涯。



乍听起来可能有点奇怪,一个名为“谁看过我的资料”的功能会催生出一些最流行的开源工具,而这些工具正在改变公司构建和操作软件的方式。



Pinot 是 Apache 最新孵化的项目,它追随了KafkaHelixSamza等巨头的脚步,其中,Kafka正迅速成为云原生应用的支柱。如果软件确实正在吞噬世界,那么 Apache Kafka 可能要负责吞噬私有数据中心。


在 Kafka 登上行业标准消息代理的舞台之前,有硬软件问题的大公司除了运行自己的硬件之外几乎别无选择。但现如今,在 Kafka 这样的开源工具的帮助下,开发者可以在数据中心的虚拟机和云原生应用之间架起一座桥梁


Kafka 的秘诀是什么?它将从许多不同的相互分离的系统收集的事件流转换成可以像数据库一样查询的主题,而不必真得转换成数据库。


尽管作为一种“可移植数据仓库”,Kafka 代表了一项重大的进步,但大多数应用程序开发人员仍在努力将事件流转换为复杂的查询模型,而不用去了解 Kafka 流的流入流出。


现在,Pinot的目标更进一步,它在 Kafka 之上为开发者提供了一个他们熟悉的数据库,将事件流转换为可查询的数据模型。最终的结果是,在构建和操作他们的应用程序时,开发人员就不必再考虑如何获得 Kafka 的所有好处,而只需要关注如何编写对用户最有价值的代码。


由于 Kafka 既是消息代理又是事务日志,所以它也经常被用作数据库,这就给开发人员增加了负担,他们需要维护主题中事件流的数据投影。


Pinot 提供的是一种工具,使开发者无需考虑如何使用 Kafka 主题来构建和维护来自事件流的可查询投影。事实证明,考虑事件流只会降低开发过程的速度,而且代价是数据可移植性。


查看英文原文:Moving developers up the stack with Apache Pinot


2020-07-13 17:012620

评论

发布
暂无评论
发现更多内容

SpringBoot配置文件application

Geek_7ubdnf

Java

剖析容器网络Flannel VXLAN模式工作原理

flannel #Kubernetes# #k8s

MySql 应用程序常见问题

Andy

Date & Time组件(上)

芯动大师

Android Studio DATE类型 time

读懂深度学习,走进“深度学习+”阶段

脑极体

深度学习 百度 #飞桨#

PowerShell 中运行 maven 参数无法识别

HoneyMoose

拆分电商系统为微服务

闲人Eric

#架构实战营

谈一谈有关 MySQL 数据库数据安全问题

风铃架构日知录

Java MySQL 程序员 后端 IT

2022年终总结:今年学完的付费课程

石云升

学习 知识付费 年终总结 1月月更

Design a limited-time offers e-commerce system

David

架构实战营

Java中时间戳的使用

Geek_7ubdnf

Java

#46 A003-B端产品经理小A故事-你是在画猫吗?

非典型产品经理笔记

个人成长 产品经理 b端产品经理

MASA Stack 1.0 发布会 倒计时一天

MASA技术团队

.net MASA

Studio One2023免费中文版安装下载

茶色酒

Studio One 5 Studio One2023

2023-01-14:给定一个二维数组map,代表一个餐厅,其中只有0、1两种值 map[i][j] == 0 表示(i,j)位置是空座 map[i][j] == 1 表示(i,j)位置坐了人 根据防

福大大架构师每日一题

算法 rust Solidity 福大大

【Dubbo3终极特性】「云原生三中心架构」带你探索Dubbo3体系下的配置中心和元数据中心、注册中心的原理及开发实战(上)

码界西柚

云原生 注册中心 配置中心 Dubbo3 元数据中心

AIGC神器CLIP:技术详解及应用示例

Baihai IDP

人工智能 AI AIGC CLIP

模块四:存储架构模式

程序员小张

千万学生管理系统存储架构设计

陈天境

#45 A002-B端产品经理小A故事-走进客户2

非典型产品经理笔记

个人成长 产品经理 b端产品经理

ROS教程(Xavier)

Geek_7ubdnf

ROS

ETL 引擎 engine 适配 elasticsearch

weigeonlyyou

oracle Prometheus ETL Elastic Search InfluxDB Cluster

数据分析设计模式

agnostic

数据分析模式

架构训练营-模块三作业

Sam

架构实战营

如何进行秒杀场景下的异步下单实现

风铃架构日知录

Java 数据库 程序员 后端 IT

PyTorch指定GPU进行训练

Geek_7ubdnf

Python

醉爱江南,2023走进双山香山

科技大数据

基于幂等表思想的幂等实践

小小怪下士

Java 程序员

PyCharm创建Jupyter Notebook

IT蜗壳-Tango

Python

ROS常用指令

Geek_7ubdnf

ROS

架构作业4-千万级学生管理系统的考试试卷存储方案

梁山伯

应对PB级数据分析的挑战,领英使用了Apache Pinot加Kafka的数据架构_架构_Kenny Bastani_InfoQ精选文章