9月7日-8日,相约 2023 腾讯全球数字生态大会!聚焦产业未来发展新趋势! 了解详情
写点什么

Pinot:LinkedIn 的实时数据分析系统

  • 2014-10-13
  • 本文字数:833 字

    阅读完需:约 3 分钟

Pinot 是一个适用于 Web 的实时数据分析系统,由 LinkedIn 设计开发,现在已经成为 LinkedIn 的分布式实时数据分析基础设施,支撑着 LinkedIn 内外 30 多个分析产品。LinkedIn 的各种数据跟踪功能都是在 Pinot 的基础上实现的,如最近哪些用户查看了特定用户的资料,哪些用户在关注某个公司等。

GigaOM 报道,在 LinkedIn 还是一家初创企业的时候,其工程团队分成了若干不同的组,每个组使用的数据存储系统差别很大,如将 Oracle 的关系型数据库用于查询,而将 Voldemort 用于键值存储。但随着 LinkedIn 的日益发展以及用户数据的增多,这些不同的系统变得难以扩展。

Praveen Neppalli Naga 是 LinkedIn 的一名项目经理。他告诉 GigaOM,为了解决上述问题,他与其团队开始构建一个集中式系统。该系统既要能够整合 LinkedIn 的所有数据,又要能够简化以它为基础的数据密集型产品的构建过程。为了集中管理 LinkedIn 的数据,他们选用 Hadoop 基础架构模型作为 Pinot 的基础,并根据需要做了修改。然后,他们就可以编写 Hadoop 脚本,检索建有索引的用户数据。

由于 LinkedIn 的数据维度众多,Pinot 需要能够支持多种类型的索引。例如,一个人就读的大学是一个不会变化数据点,而他拥有的技能类型会发生变化,因此它们的索引方式应该不同。下面是 Pinot 的系统架构图:

另外,为了能够快速准确的响应用户请求,LinkedIn 工程团队还必须找到一种方法,既能保证与请求相关的最新数据随时可用,又能保证老数据的可用性,同时,老数据又不会混入新数据妨碍用户的查询。为了实现这个目标,他们借助 Apache Kafka 实现了实时数据索引过程。

据 Naga 说,经过了大约两年的开发,Pinot 现在成了 LinkedIn 事实上的数据分析平台。他们正在评估将其开源,并围绕它建立一个开发社区,以推动它进一步发展。


感谢张天雷对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

活动推荐:

2023年9月3-5日,「QCon全球软件开发大会·北京站」 将在北京•富力万丽酒店举办。此次大会以「启航·AIGC软件工程变革」为主题,策划了大前端融合提效、大模型应用落地、面向 AI 的存储、AIGC 浪潮下的研发效能提升、LLMOps、异构算力、微服务架构治理、业务安全技术、构建未来软件的编程语言、FinOps 等近30个精彩专题。咨询购票可联系票务经理 18514549229(微信同手机号)。

2014-10-13 02:266422
用户头像

发布了 1008 篇内容, 共 361.9 次阅读, 收获喜欢 334 次。

关注

评论

发布
暂无评论
发现更多内容

一份送给IT工程师们的礼物,观测云2022正式发布!

观测云

Java工程师面试题汇总,全会月薪至少3W

Java架构追梦

Java 程序员 后端开发

Fedora 上如何安装 gitea

HoneyMoose

OpenHarmony硬件资源池化架构介绍

科技汇

千万级学生系统考试试卷存储架构设计

Trent

架构训练营 存储架构

企评家|为什么说我们需要企业成长性评价

企评家

架构设计之「入口统一」原则

凌晞

架构 软件设计原则

元宇宙的本质特征是五大融合

CECBC

太卷了! 八股文、算法张口就来?2022版Java面试手册帮你轻松拿下

Java架构追梦

Java 程序员 后端开发

分布式系统学习资料汇总

木鸟杂记

分布式 分布式系统 资料 资料整理 公开课

渗透实战之内网渗透流程

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 漏洞挖掘

[版本更新] PolarDB-X on OSS 提供冷热数据分离存储

阿里云数据库开源

数据库 阿里云 开源 PolarDB-X

Postman 如何删除一个工作空间

HoneyMoose

倒计时0日!Apache DolphineScheduler4月 Meetup 大佬手把手教你大数据开发,离线调度

Apache DolphinScheduler

千万级学生管理系统考试存储系统方案

踩着太阳看日出

架构训练营

[Day30]-[二叉树]第二小的值

方勇(gopher)

LeetCode 数据结构和算法

【ELT.ZIP】OpenHarmony啃论文俱乐部——点燃主缓存压缩技术火花

ELT.ZIP

gpu OpenHarmony ELT.ZIP 主缓存

模块四:作业

本人法海

「架构实战营」

元宇宙里开豪车

CECBC

模块四作业(试卷存储方案)

Dean.Zhang

架构实战营 第 6 期 模块四课后作业

火钳刘明

#架构实战营 「架构实战营」

Go 语言入门很简单:Go 计时器

宇宙之一粟

Go 语言 计时器 4月月更

ffmpeg命令参数类型

Loken

企评家|宁波富达股份有限公司成长性报告简述

企评家

企评家|上海海欣集团股份有限公司成长性报告简述

企评家

Java面试通关秘籍:笔记导图+面试文档+视频讲解

Java架构追梦

Java 程序员 后端开发

天下谁人不识君:当IPv6+成为千行百业的朋友

脑极体

不做Opensea,OKALEIDO基于DAO做自己

威廉META

[Day31-01]-[二叉树]二叉树的直径

方勇(gopher)

LeetCode 数据结构和算法

庚戌篇 集識創世紀《「內元宇宙」聯載》

因田木

五識 神通

未来计算图鉴:十年后的计算长什么模样?

脑极体

  • 扫码添加小助手
    领取最新资料包
Pinot:LinkedIn的实时数据分析系统_语言 & 开发_谢丽_InfoQ精选文章