写点什么

应对 PB 级数据分析的挑战,领英使用了 Apache Pinot 加 Kafka 的数据架构

  • 2020-07-13
  • 本文字数:1085 字

    阅读完需:约 4 分钟

应对PB级数据分析的挑战,领英使用了Apache Pinot加Kafka的数据架构

本文最初发布于 Apache Pinot 开发博客,由 InfoQ 中文站翻译并分享。


曾几何时,一家名为领英的互联网公司面临着无法实时分析 PB 级联网数据的挑战。由于是第一次出现这样的问题,所以只有一个解决办法。该公司组建了一支有才华的工程师团队,并指派他们为这项工作开发合适的工具。如今,这个工具被称为 Apache Pinot。


曾几何时,一家名为领英的互联网公司面临着无法实时分析 PB 级联网数据的挑战。由于是第一次出现这样的问题,所以只有一个解决办法。该公司组建了一支有才华的工程师团队,并指派他们为这项工作开发合适的工具。如今,这个工具被称为Apache Pinot


Pinot 开始处理这个世界上最大的在线社交网络之一的传奇创新的遗留问题。在过去的几十年里,这家硅谷的科技巨头帮助了世界各地数以亿计的人找到了正确的职业生涯发展之路。如今,作为一家微软公司,领英一直在保证同事们之间的联系,伴随他们经历成功与失败,以及开启更好的职业生涯。



乍听起来可能有点奇怪,一个名为“谁看过我的资料”的功能会催生出一些最流行的开源工具,而这些工具正在改变公司构建和操作软件的方式。



Pinot 是 Apache 最新孵化的项目,它追随了KafkaHelixSamza等巨头的脚步,其中,Kafka正迅速成为云原生应用的支柱。如果软件确实正在吞噬世界,那么 Apache Kafka 可能要负责吞噬私有数据中心。


在 Kafka 登上行业标准消息代理的舞台之前,有硬软件问题的大公司除了运行自己的硬件之外几乎别无选择。但现如今,在 Kafka 这样的开源工具的帮助下,开发者可以在数据中心的虚拟机和云原生应用之间架起一座桥梁


Kafka 的秘诀是什么?它将从许多不同的相互分离的系统收集的事件流转换成可以像数据库一样查询的主题,而不必真得转换成数据库。


尽管作为一种“可移植数据仓库”,Kafka 代表了一项重大的进步,但大多数应用程序开发人员仍在努力将事件流转换为复杂的查询模型,而不用去了解 Kafka 流的流入流出。


现在,Pinot的目标更进一步,它在 Kafka 之上为开发者提供了一个他们熟悉的数据库,将事件流转换为可查询的数据模型。最终的结果是,在构建和操作他们的应用程序时,开发人员就不必再考虑如何获得 Kafka 的所有好处,而只需要关注如何编写对用户最有价值的代码。


由于 Kafka 既是消息代理又是事务日志,所以它也经常被用作数据库,这就给开发人员增加了负担,他们需要维护主题中事件流的数据投影。


Pinot 提供的是一种工具,使开发者无需考虑如何使用 Kafka 主题来构建和维护来自事件流的可查询投影。事实证明,考虑事件流只会降低开发过程的速度,而且代价是数据可移植性。


查看英文原文:Moving developers up the stack with Apache Pinot


2020-07-13 17:012703

评论

发布
暂无评论
发现更多内容

通义灵码入职表现实测:蔚来汽车AI 生成代码占比在 30% 以上

阿里巴巴云原生

阿里云 云原生 通义灵码

YashanDB V23.4 LTS 正式发布|两地三中心、库级闪回重磅特性上线,生产级可用性再升级

极客天地

用 AI 快速开发一款小程序

悟空聊架构

CodeBuddy首席试玩官

Nooka:将书籍生成可互动音频,支持随时打断和提问;Sam Altman:语音与图形界面结合将带来创新丨日报

RTE开发者社区

接单拒绝别人最好的办法就是:“这个我不会做”

程序员郭顺发

入门无压力,进阶有深度:iVX 的开发者友好性双重法则

代码制造者

低代码 无代码

源码交付+可控部署:用户行为分析系统的落地经验

ClkLog

开源 数据分析 埋点 用户行为分析 客户画像

数安智用·科技强警|万里红依托“三大优势×五大能力”受邀参展第十二届警博会

新消费日报

交易所功能设计的核心架构与创新实践

区块链软件开发推广运营

交易所开发 链游开发 链游开发dapp开发 代币开发 代币开发公链开发

重磅预告 | Apache SeaTunnel接入MCP,即将解锁模型上下文协议超能力!

白鲸开源

开源 AI 大模型 Apache SeaTunnel MCP

AI题库软件系统的技术难点

北京木奇移动技术有限公司

软件外包公司 AI题库系统 题库软件系统

10 分钟快速搭建一款面试刷题小程序

悟空聊架构

Arthas ognl(执行ognl表达式)

刘大猫

人工智能 监控 Arthas 监控工具 ognl

AI for All,Code for All|七牛云 AI 开源项目扶持计划全面启动

七牛云

开源 AI

刷脸购物、智能补货:英特尔AI技术重塑零售门店体验

E科讯

手把手教你抓取京东商品评论:API 接口解析与 Python 实战

tbapi

京东商品评论接口 京东API 京东商品评论API 京东评论接口 京东评论内容采集

天下拍-资产拍卖经典案例分享

至存网络

拍卖 拍卖系统 拍卖软件 艺术品拍卖 资产拍卖

京东商品列表接口 item_search 深度解析

tbapi

京东API 关键词搜索京东商品接口 京东商品列表接口 京东数据采集 京东搜索接口

企业跨国组网怎么选?MPLS与SD-WAN方案对比

Ogcloud

企业组网 异地组网 跨国网络 国际网络专线 跨国网络专线

公链开发及其配套设施:钱包与区块链浏览器

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 公链开发代币开发

观测云:从云时代走向AI时代

观测云

人工智能

图形化编程语言视域下iVX开发平台的技术建构

代码制造者

ide 低代码

通义灵码入职表现实测:蔚来汽车AI 生成代码占比在 30% 以上

阿里云云效

阿里云 云原生 通义灵码

挖到项目中的2高危和中危漏洞

悟空聊架构

CodeBuddy首席试玩官

自动动手制作一款Chrome扩展,一键转存文章

悟空聊架构

他为SeaTunnel写下10+高质量PR,还把开源带进了公司生产线!

白鲸开源

和鲸支持!南大人工智能通识课,让每个学生都懂AI

ModelWhale

什么是区块链dapp开发?它能做什么?

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

破解RL训练崩溃难题,快手联合中科院、清华、南大提出多模态奖励模型R1-Reward!

快手技术

人工智能 大模型

Arthas mbean(查看 Mbean 的信息)

刘大猫

Java 监控 Arthas 监控工具 mbean

如何用AI工具制作毕业答辩PPT?PPT制作保姆级攻略来袭!

职场工具箱

效率工具 PPT 毕业设计 办公软件 AI生成PPT

应对PB级数据分析的挑战,领英使用了Apache Pinot加Kafka的数据架构_架构_Kenny Bastani_InfoQ精选文章