写点什么

Apache Pinot 1.0 发布,提供实时的分布式 OLAP 数据存储

  • 2024-01-06
    北京
  • 本文字数:941 字

    阅读完需:约 3 分钟

Apache Pinot 1.0发布,提供实时的分布式OLAP数据存储

Apache Pinot 是一个使用 Java 编写的开源列式分布式数据存储系统。Pinot 通过在线分析处理 (OLAP) 来响应低延迟的多维分析 (MDA) 查询。


Pinot 最初在 2013 年作为 LinkedIn 的内部项目,用于支持分析解决方案,随后于 2015 年 6 月基于 Apache 2.0 许可开源。该项目于 2019 年 6 月成为 Apache 软件基金会的一部分。


在 1.0 版本发布之前的一年中,社区解决了 300 多个问题,包括引入新特性、提高性能和 bug 修复。目前该项目在 GitHub 上有 130 多万行代码,由 300 多名贡献者进行维护。


Apache Pinot 最适合用于分析不可变的实时摄入数据,尤其是在查询具有多个维度和度量的时间序列数据时。该项目使用 Apache Helix 作为集群管理嵌入式代理,使用 Apache Zookeeper 进行集群状态和健康的协调和维护。


Pinot 提供快速查询,能够在几十毫秒的 P90 延迟内过滤和聚合 PB 级的数据。数据可以使用流式解决方案(如 Apache Kafka、Apache Pulsar 和 AWS Kinesis)实时摄入,也可以使用 Apache Hadoop、Apache Spark 和 AWS S3 进行批量摄入。Pinot 具备了水平伸缩性和容错性。可使用 Pinot 查询语言 (PQL)、SQL 或 Trino 和 Presto SQL 查询引擎查询数据。PQL 支持类似于 SQL 的功能:选择、聚合、分组、排序和过滤。


该版本的关键特性之一是多阶段查询引擎的功能完整性。默认查询执行引擎从未针对复杂查询(如分布式连接和窗口操作)进行过优化。多阶段查询引擎支持多阶段运算符,如实时分布式连接和窗口操作,并配备了新的最小化了数据重洗的查询计划优化器。Apache Pinot 的文档解释了如何启用多阶段查询引擎。


入门指南描述了如何在本地、Docker、Kubernetes 或 Azure、GCP 、 AWS 公共云上运行 Pinot。下面的命令用于使用预加载的棒球数据集来运行 Pinot:


docker run \      -p 9000:9000 \      apachepinot/pinot:0.12.0 QuickStart \      -type batch
复制代码


快速入门示例提供了不同的示例和所有可用的启动命令。


更多详细信息可在发布说明和 Apache Pinot 1.0 的公告中找到。StarTree 开发者关系副总裁 Tim Berglund 在 YouTube 上介绍了 Apache Pinot 1.0 并解释了 Apache Pinot 的一般性情况。Apache Pinot Meetup Group 定期组织会议,开发者可在 Slack 上提问。


原文链接

https://www.infoq.com/news/2023/12/apache-pinot/


2024-01-06 08:0011584

评论 3 条评论

发布
用户头像
1
2024-01-08 17:02 · 江苏
回复
2
2024-01-08 17:06 · 江苏
回复
3
2024-01-08 17:06 · 江苏
回复
没有更多了
发现更多内容

CopyOnWriteArrayList源码解读之CopyOnWrite思想的利与弊

徐同学呀

Java源码 JUC CopyOnWriteArrayList

聪明人的训练(十七)

Changing Lin

4月日更

史上最强的:京东北极星商业系统权限管控实践

Java架构师迁哥

华为帐号服务学习笔记(四):Authorization Code模式服务端开发

Coding狙击

Java android

ThreadPoolExecutor源码解读(四)如何正确使用线程池(总结坑点+核心参数调优)

徐同学呀

ThreadPoolExecutor

ScheduledThreadPoolExecutor源码解读(一)DelayedWorkQueue高度定制延迟阻塞优先工作队列

徐同学呀

线程池 Java源码 ScheduledThreadPool JUC

Anolis OS 8.2 RC2 发行,支持飞腾、海光、兆芯、鲲鹏等芯片

阿里云基础软件团队

程序员3年CRUD从8K涨到20K,这4个月我到底经历了什么?

码农之家

编程 程序员 互联网 面试 职场

为极客时间增加自动提醒功能,督促用户回来上课

克比

ThreadPoolExecutor源码解读(三)如何优雅的关闭线程池(shutdown、shutdownNow、awaitTermination)

徐同学呀

线程池 Java源码 JUC ThreadPoolExecutor

ScheduledThreadPoolExecutor源码解读(二)ScheduledFutureTask时间调度执行任务(延迟执行、周期性执行)

徐同学呀

线程池 Java源码 ScheduledThreadPool JUC

阿里架构师如是说:权限系统就该这么设计

Java架构师迁哥

极客架构模块2作业-朋友圈高性能架构分析

Geek_649372

架构实战营

架构师实战营 模块二总结

代廉洁

架构实战营

阿里高工熬夜14天码出这份Java10w字的面试手册!却遭GitHub封杀

Java架构之路

Java 程序员 架构 面试 编程语言

阿里P8整理出SQL笔记:收获不止SOL优化抓住SQL的本质

Java架构之路

Java 程序员 架构 面试 编程语言

关于ReentrantReadWriteLock,首个获取读锁的线程单独记录问题讨论(firstReader和firstReaderHoldCount)

徐同学呀

AQS Java源码 JUC

ThreadPoolExecutor源码解读(一)重新认识ThreadPoolExecutor(核心参数、生命周期、位运算、ThreadFactory、拒接策略)

徐同学呀

线程池 Java源码 JUC ThreadPoolExecutor

【腾讯阿里最全面试题】Redis持久化RDB和AOF 的区别

Linux服务器开发

面试 后端 面经 Linux服务器开发

架构实战营 - 模块 2- 作业

请弄脏我的身体

架构实战营

探索区块链Baas平台的奥秘,源中瑞公共服务平台开发技术

源中瑞-龙先生

区块链 源中瑞 Baas

Github霸榜数月!原来是阿里大牛最新的Java性能优化实战笔记

钟奕礼

Java 编程 程序员 架构 面试

ThreadPoolExecutor源码解读(二)execute提交任务,Worker详解。如何执行任务?如何回收空闲线程?

徐同学呀

线程池 Java源码 JUC ThreadPoolExecutor

增强产业链供应链自主可控能力,区块链能否贡献力量?

CECBC

区块链

计算机原理学习笔记 Day8

穿过生命散发芬芳

计算机原理 4月日更

HarmonyOS开发者日再现上海,生态最新进展、核心代码解析、创新案例分享

Geek_283163

苏州园区:面向全国“发帖”聚力 加快创建区块链技术应用高地

CECBC

openLooKeng如何应对“野蛮零散”的大数据

LooK

大数据 开源 openLooKeng

FutureTask源码解读,阻塞获取异步计算结果(阻塞、取消、装饰器、适配器、Callable)

徐同学呀

Java源码 JUC Future

读懂「数据」在区块链网络中流动的3种范式?

CECBC

区块链

阿里高工熬夜18天码出Java150K字面试宝典,却遭Github全面封杀

Java架构之路

Java 程序员 架构 面试 编程语言

Apache Pinot 1.0发布,提供实时的分布式OLAP数据存储_实时计算_Johan Janssen_InfoQ精选文章