Apache Kylin：基于Hadoop的OLAP引擎_DevOps & 平台工程_Craig Lukasi_InfoQ精选文章



 写点什么

登录/注册

传统上，Hadoop（包括 MapReduce，Pig 以及 Hive）通常用于外部私有

OLAP Cube 引擎准备数据。如今，Zaloni 的客户基于

Apache Kylin 的 OLAP 技术实现了实时查询的能力，这些 Cube 的事实表包含了 400 亿条以上的原始数据。我们正在帮助客户统一归集来自于多个独立系统的账单数据，并构建 OLAP Cube 以支持实时分析，这是以前系统所无法实现的。现在，Hadoop 集群都可以做到了。

基于 Hadoop 的分析演化

Hadoop 已经从通用计算能力（MapReduce）的分布式数据平台演化为一个更强大的平台。Hadoop 及其生态系统已经有能力处理更广泛的用例，远超最初设计时的低成本分布式批处理能力。支持了从迭代式的机器学习算法，到

OLAP 及

OLTP 系统，这些基于“hadoop 集群”的开源分析能力给传统的大玩家们（Oralce，SAS，Teradata，IBM 等）带来了很大的压力。

为规模设计

Apache Kylin 是开源的多维在线分析处理引擎（MOLAP），名字来源于中国的一种神兽“麒麟”。项目最初诞生于 eBay，专为分析处理 PB 级数据集而设计。这里引用一段

Apache 基金会 2015 年 12 月的 Blog：“Apche Kylin 是目前为止大数据领域最好的 OLAP 引擎”，eBay 数据服务与解决方案部门高级总监 Wilson Pang 说到，“在 eBay，我们收集用户在每一个页面的每一个行为。当其他 OLAP 引擎挣扎于数据量的极大膨胀时，Kylin 可以在毫秒级获得查询响应。除此之外，基于 Kylin 我们还实现了近实时的数据流存储和分析。总之，Kylin 在 eBay 产品分析平台中扮演了至关重要的后台核心组件角色。”

如何工作

Kylin 通过预计算实现查询速度的提升，利用

Hive 查询计算多个维度的组合（译者注：此处原文有误，正确应为，Kylin 是通过 Hive 获取数据源，并利用 MapReduce 计算多个维度的任意组合），计算各类指标的聚合值，并将这些中间结果保存在

HBase 中。Kylin 拥有用户友好的查询界面，也支持通过 API 和 JDBC、ODBC 提交查询。查询引擎基于

Apache Calcite 查询处理器和 HBase 的检索功能（比如 fuzzy row filters）实现结果集快速获取。HBase 的 rowkeys 利用

Trie Data Structure 技术实现维度字段字典数据的高效压缩。

当前，Kylin 只支持

星型模型，因此每个Cube 只能有单一的事实表。

建模向导

设计Cube 很容易。假设你已经有了一张Hive 的表，建模向导将帮助你一步步走完设计的流程，包括选择维度（包括层级维度），选择维表，选择指标等。也支持按照日期时间分区，使得Cube 分段刷新易如反掌，这广泛用在了流数据的增量式构建。一旦Cube 定义好了，我们通过Kylin 的监控界面查看Cube 的构建进度。

除了原生的Kylin Web 界面，你可以通过JDBC 查询OLAP Cube，也可以通过Zeppelin（Zeppelin 已经内置了Kylin 的解释器），或者设计良好的REST API。

基于Hadoop 的OLAP 的其他选项

Kylin 是基于 Hadoop 的 OLAP 技术的一个开源选项。

Apache Lens 是另一个，它是一个

ROLAP 解决方案，并不能实现 Kylin 这种预计算技术所能达到的快速查询响应能力。

Druid 也是一个选项，它采用了自己的集群技术（并不依赖 Hadoop）。也有一些第三方的解决方案，声称支持 Hadoop 之上的 OLAP 能力。

作者：Craig Lukasi，本文已获翻译授权。

译者：刘一鸣（Billy Liu), 现任 Kyligence 产品负责人，负责 Apache Kylin 企业级版本及其他产品的规划和设计。Kyligence 是由 Apache Kylin 核心团队创立的创业公司。

评论

发布

暂无评论

Solana费用模式解读：与以太坊有何不同？

区块链软件开发推广运营

交易所开发 dapp开发链游开发公链开发代币开发

高效处理日均5000亿+数据：58集团基于Apache SeaTunnel的数据集成平台架构优化

开源数据集成 Apache SeaTunnel 数据集成平台 58集团

全网最全商品模型设计方案，不接受反驳！

不在线第一只蜗牛

Java 人工智能大数据

5款主流AI模型，千万Token免费用，体验极速智能！

第75期 | GPTSecurity周报

网络安全、 LLMs

基于豆包MarsCode 和 Threejs 实现3D地图可视化

人工智能程序员 AI 开发配置

9.9比9.11大0.79，让大模型准确地做好数学题

大模型 #人工智能数学计算

抖音商品详情API接口对电商的作用及收益

科普小能手

API API 接口抖音商品详情API接口抖音API 抖音API接口

IC China 2024北京开幕：英特尔分享洞察，促智能计算应用落地

《Django 5 By Example》阅读笔记：p651-p678

数造科技亮相第26届高交会并接受媒体采访，以数据智能赋能未来

大数据数据治理数据开发科技大模型

ETL没有自动化数据集成平台，你的BI报表只会让你错失先机

BI 数仓 ETL 数据集成

如何通过对敏捷实践的调整，帮助远程团队提升研发效能？

思码逸研发效能

DevOps 研发效能远程办公研发效能度量研发效能管理

Helius：从数据出发，衡量 Solana 的真实去中心化程度

怎么制作职业生涯规划ppt？用这2个AI工具自动生成ppt！

职场工具箱

人工智能职场 PPT AIGC AI生成PPT

全球IP地址库性能评测：数据覆盖与精确性研究

Oracle Linux 9.5 正式版发布 - Oracle 提供支持 RHEL 兼容发行版

Linux RHEL orcle

GroovyShell 应用实践

SD-WAN怎样实现企业混合云组网

SD-WAN 企业组网 SD-WAN组网 SD-WAN服务商 SDWAN

制造业中小企业如何进行数字化转型?

积木链小链

数字化转型数字化

技术干货丨基于Radioss及HyperLife的车门SLAM疲劳分析

Altair RapidMiner

汽车仿真智能制造 altair Hypermesh

智源行业应用大模型挑战赛开启报名：挖掘数据潜能，共创行业新篇

智源研究院

【论文速读】| 迈向自动化渗透测试：引入大语言模型基准、分析与改进

15.模版模式设计思想