NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

应对 PB 级数据分析的挑战,领英使用了 Apache Pinot 加 Kafka 的数据架构

  • 2020-07-13
  • 本文字数:1085 字

    阅读完需:约 4 分钟

应对PB级数据分析的挑战,领英使用了Apache Pinot加Kafka的数据架构

本文最初发布于 Apache Pinot 开发博客,由 InfoQ 中文站翻译并分享。


曾几何时,一家名为领英的互联网公司面临着无法实时分析 PB 级联网数据的挑战。由于是第一次出现这样的问题,所以只有一个解决办法。该公司组建了一支有才华的工程师团队,并指派他们为这项工作开发合适的工具。如今,这个工具被称为 Apache Pinot。


曾几何时,一家名为领英的互联网公司面临着无法实时分析 PB 级联网数据的挑战。由于是第一次出现这样的问题,所以只有一个解决办法。该公司组建了一支有才华的工程师团队,并指派他们为这项工作开发合适的工具。如今,这个工具被称为Apache Pinot


Pinot 开始处理这个世界上最大的在线社交网络之一的传奇创新的遗留问题。在过去的几十年里,这家硅谷的科技巨头帮助了世界各地数以亿计的人找到了正确的职业生涯发展之路。如今,作为一家微软公司,领英一直在保证同事们之间的联系,伴随他们经历成功与失败,以及开启更好的职业生涯。



乍听起来可能有点奇怪,一个名为“谁看过我的资料”的功能会催生出一些最流行的开源工具,而这些工具正在改变公司构建和操作软件的方式。



Pinot 是 Apache 最新孵化的项目,它追随了KafkaHelixSamza等巨头的脚步,其中,Kafka正迅速成为云原生应用的支柱。如果软件确实正在吞噬世界,那么 Apache Kafka 可能要负责吞噬私有数据中心。


在 Kafka 登上行业标准消息代理的舞台之前,有硬软件问题的大公司除了运行自己的硬件之外几乎别无选择。但现如今,在 Kafka 这样的开源工具的帮助下,开发者可以在数据中心的虚拟机和云原生应用之间架起一座桥梁


Kafka 的秘诀是什么?它将从许多不同的相互分离的系统收集的事件流转换成可以像数据库一样查询的主题,而不必真得转换成数据库。


尽管作为一种“可移植数据仓库”,Kafka 代表了一项重大的进步,但大多数应用程序开发人员仍在努力将事件流转换为复杂的查询模型,而不用去了解 Kafka 流的流入流出。


现在,Pinot的目标更进一步,它在 Kafka 之上为开发者提供了一个他们熟悉的数据库,将事件流转换为可查询的数据模型。最终的结果是,在构建和操作他们的应用程序时,开发人员就不必再考虑如何获得 Kafka 的所有好处,而只需要关注如何编写对用户最有价值的代码。


由于 Kafka 既是消息代理又是事务日志,所以它也经常被用作数据库,这就给开发人员增加了负担,他们需要维护主题中事件流的数据投影。


Pinot 提供的是一种工具,使开发者无需考虑如何使用 Kafka 主题来构建和维护来自事件流的可查询投影。事实证明,考虑事件流只会降低开发过程的速度,而且代价是数据可移植性。


查看英文原文:Moving developers up the stack with Apache Pinot


2020-07-13 17:012349

评论

发布
暂无评论
发现更多内容

定制户外led屏幕需要了解哪些参数

Dylan

应用场景 数字 定制化 LED 屏幕

软件测试|不会Python RPC,一篇文章教你入门

霍格沃兹测试开发学社

什么???CSS也能原子化! | 京东云技术团队

京东科技开发者

CSS 原子化服务 企业号10月PK榜 unocss

【文末已开奖】10月征文:说出你和极客时间的故事

InfoQ写作社区官方

征文活动 热门活动 活动预告 我和极客时间的故事

游戏开发年度报告 | 2023年游戏开发团队最流行的制作和发行的方式

龙智—DevSecOps解决方案

Python 爬虫实战

Noah

与腾讯云“直接对话”,用友生态如何为数实融合加力?

用友BIP

腾讯云 Fast by BIP

重复照片快速清理 PhotoSweeper X for Mac激活最新版

mac大玩家j

Mac软件 重复照片处理工具

中电金信、用友相向而行 成就数智时代专业服务佳话

用友BIP

数智化

软件测试|Pytest必会技巧(三)

霍格沃兹测试开发学社

电商运营该如何做AB测试

字节跳动数据平台

大数据 电商 AB testing实战 A/B 测试 企业号9月PK榜

DeFi/DAPP质押挖矿系统技术开发

V\TG【ch3nguang】

【京东开源项目】微前端框架MicroApp 1.0正式发布

京东科技开发者

开源 微前端 微前端框架 企业号10月PK榜 MicroApp

ARTS-WEEK9(23.10.9-23.10.15)

EchoZhou

如何管理嵌入式开发中产生的数字资产?ACT汽车电子与软件技术周演讲回顾

龙智—DevSecOps解决方案

嵌入式开发 汽车嵌入式开发

软件测试|Pytest的必会技巧(一)

霍格沃兹测试开发学社

软件测试|简单易学的性能监控体系prometheus+grafana搭建教程

霍格沃兹测试开发学社

log4j2同步日志引发的性能问题 | 京东物流技术团队

京东科技开发者

log4j2 Log4j2 漏洞 日志同步 企业号10月PK榜 性能问题

主要的商业云管平台公司有哪些?大家推荐哪家?

行云管家

云计算 企业上云 云管平台 云管理

Beyond the Limits: IPQ9574 and QCN6274 - the pinnacle of network performance

wifi6-yiyi

qcn6274 ipq9574

简单好用的磁盘管理工具 DiskCatalogMaker 中文版

胖墩儿不胖y

磁盘管理 Mac软件 磁盘管理工具

MISRA C++:2023,您需要了解的下一个MISRA信息

龙智—DevSecOps解决方案

MISRA C++:2023 MISRA MISRA C++

Atlassian午餐会直播回顾:如何在Jira中进行项目时间与成本管理?

龙智—DevSecOps解决方案

工时管理 jira工时 Jira工时管理插件

华为云发布CodeArts APIMock服务,精准Mock,并行开发零等待!

华为云开发者联盟

云计算 华为云 华为云开发者联盟 华为云CodeArts 并行开发

jq工具及其常用用法 | 京东物流技术团队

京东科技开发者

json 数据处理 jq 企业号10月PK榜

华大北斗荣获2022年广东省制造业单项冠军

江湖老铁

应对PB级数据分析的挑战,领英使用了Apache Pinot加Kafka的数据架构_架构_Kenny Bastani_InfoQ精选文章