写点什么

应对 PB 级数据分析的挑战,领英使用了 Apache Pinot 加 Kafka 的数据架构

  • 2020-07-13
  • 本文字数:1085 字

    阅读完需:约 4 分钟

应对PB级数据分析的挑战,领英使用了Apache Pinot加Kafka的数据架构

本文最初发布于 Apache Pinot 开发博客,由 InfoQ 中文站翻译并分享。


曾几何时,一家名为领英的互联网公司面临着无法实时分析 PB 级联网数据的挑战。由于是第一次出现这样的问题,所以只有一个解决办法。该公司组建了一支有才华的工程师团队,并指派他们为这项工作开发合适的工具。如今,这个工具被称为 Apache Pinot。


曾几何时,一家名为领英的互联网公司面临着无法实时分析 PB 级联网数据的挑战。由于是第一次出现这样的问题,所以只有一个解决办法。该公司组建了一支有才华的工程师团队,并指派他们为这项工作开发合适的工具。如今,这个工具被称为Apache Pinot


Pinot 开始处理这个世界上最大的在线社交网络之一的传奇创新的遗留问题。在过去的几十年里,这家硅谷的科技巨头帮助了世界各地数以亿计的人找到了正确的职业生涯发展之路。如今,作为一家微软公司,领英一直在保证同事们之间的联系,伴随他们经历成功与失败,以及开启更好的职业生涯。



乍听起来可能有点奇怪,一个名为“谁看过我的资料”的功能会催生出一些最流行的开源工具,而这些工具正在改变公司构建和操作软件的方式。



Pinot 是 Apache 最新孵化的项目,它追随了KafkaHelixSamza等巨头的脚步,其中,Kafka正迅速成为云原生应用的支柱。如果软件确实正在吞噬世界,那么 Apache Kafka 可能要负责吞噬私有数据中心。


在 Kafka 登上行业标准消息代理的舞台之前,有硬软件问题的大公司除了运行自己的硬件之外几乎别无选择。但现如今,在 Kafka 这样的开源工具的帮助下,开发者可以在数据中心的虚拟机和云原生应用之间架起一座桥梁


Kafka 的秘诀是什么?它将从许多不同的相互分离的系统收集的事件流转换成可以像数据库一样查询的主题,而不必真得转换成数据库。


尽管作为一种“可移植数据仓库”,Kafka 代表了一项重大的进步,但大多数应用程序开发人员仍在努力将事件流转换为复杂的查询模型,而不用去了解 Kafka 流的流入流出。


现在,Pinot的目标更进一步,它在 Kafka 之上为开发者提供了一个他们熟悉的数据库,将事件流转换为可查询的数据模型。最终的结果是,在构建和操作他们的应用程序时,开发人员就不必再考虑如何获得 Kafka 的所有好处,而只需要关注如何编写对用户最有价值的代码。


由于 Kafka 既是消息代理又是事务日志,所以它也经常被用作数据库,这就给开发人员增加了负担,他们需要维护主题中事件流的数据投影。


Pinot 提供的是一种工具,使开发者无需考虑如何使用 Kafka 主题来构建和维护来自事件流的可查询投影。事实证明,考虑事件流只会降低开发过程的速度,而且代价是数据可移植性。


查看英文原文:Moving developers up the stack with Apache Pinot


2020-07-13 17:012681

评论

发布
暂无评论
发现更多内容

分布式技术难学?谷歌大神首发纯手撸ZK+Dubbo笔记,网友看完直呼NB

程序知音

Java zookeeper 分布式 java架构 后端技术

架构--模块六作业

李某人

架构训练营

架构实战训练营模块6作业

atcgnu

【Python 函数】-参数-返回值

度假的小鱼

11月月更 Python函数参数使用

模块六作业 - 拆分电商系统为微服务

小虎

架构训练营

阿里P8大牛刷算法的正确姿态!女朋友再也不用担心我刷不动力扣了

小二,上酒上酒

Java 编程 算法 LeetCode

Java 字符串 split 的一个反直觉陷阱

mylxsw

Java 字符串 基础 陷阱

阿里高工内产的 SpringBoot 保姆级笔记,面面俱到,太全了

程序知音

Java spring springboot java架构 后端技术

混沌工程之ChaosBlade利刃出鞘

柠檬汁Code(binbin0325)

混沌工程 故障注入 ChaosBlade Chaos Mesh

架构误区系列7:删除+更新的缓存刷新机制

agnostic

缓存

第六章TCP/IP——网络传输硬件设备

初学者

11月月更

MySQL 数据库索引技术原理初探

mylxsw

MySQL 数据库 索引 B树

Alien Skin Exposure2023最新版下载

茶色酒

Alien Skin Exposure

Linux 磁盘管理

芯动大师

11月月更 Linux系统 Linux磁盘管理

【Python 函数】-嵌套使用,变量的作用域

度假的小鱼

11月月更 Python局不变量 Python全局变量

Python 操作 lxml库与Xpath

度假的小鱼

11月月更 Python 操作 lxml库 UI自动化例子

终于有好心的人把高性能MySQL「第三版」电子版分享出来了

小二,上酒上酒

Java MySQL 编程 计算机

熬夜也要肝完的阿里内部面试官手册,吃透直接拿下大厂心仪offer

小二,上酒上酒

Java 数据库 架构 分布式 高并发

MongoDB 新手入门 - CRUD

mylxsw

mongo database 入门教程

第七章TCP/IP——ARP网络攻击与欺骗

初学者

网络 11月月更

刨根问底 Kafka,面试过程真好使

蔡农曰

Java kafka 面试 后端

整合Mybatis、Servlet、Mysql、Axios、Filter、Session写一个入门级项目:非常适合初接触JavaWeb的小白白来进阶

游坦之

MySQL mybatis javaWeb Servlet 11月月更

花一周时间,啃完这套京东架构师独家微服务笔记,成功面进字节

小二,上酒上酒

Java 负载均衡 编程 架构 SpringCloud

耗时3个月啃烂了这份Redis技术笔记,我成功上岸进了字节

程序知音

Java 数据库 redis java架构 后端技术

MongoDB 新手入门 - Aggregation

mylxsw

mongo database 入门教程

Sentinel Go-揭秘[流量控制]的实现原理

柠檬汁Code(binbin0325)

源码 sentinel 熔断 限流 冷启动

python利用open3d可视化npy文件

Studying_swz

Python 11月月更

【设计模式】装饰者模式:以造梦西游的例子讲解一下装饰者模式,这也是你的童年吗?

游坦之

软件工程 设计模式 11月月更

【设计模式】适配器模式:攻敌三分,自留七分,以超兽武装的例子来谈谈适配器模式

游坦之

软件工程 设计模式 11月月更

数据结构分析_Inception_GNN_GCN

Studying_swz

人工智能 深度学习 11月月更

一文弄懂Vue与Servlet的交互:让你的大学课设变得容易起来

游坦之

Vue axios 11月月更

应对PB级数据分析的挑战,领英使用了Apache Pinot加Kafka的数据架构_架构_Kenny Bastani_InfoQ精选文章