【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

Apache Kylin:基于 Hadoop 的 OLAP 引擎

  • 2016-10-12
  • 本文字数:1369 字

    阅读完需:约 4 分钟

传统上,Hadoop(包括 MapReduce,Pig 以及 Hive)通常用于外部私有

OLAP Cube 引擎准备数据。如今,Zaloni 的客户基于

Apache Kylin 的 OLAP 技术实现了实时查询的能力,这些 Cube 的事实表包含了 400 亿条以上的原始数据。我们正在帮助客户统一归集来自于多个独立系统的账单数据,并构建 OLAP Cube 以支持实时分析,这是以前系统所无法实现的。现在,Hadoop 集群都可以做到了。

基于 ****Hadoop 的分析演化

Hadoop 已经从通用计算能力(MapReduce)的分布式数据平台演化为一个更强大的平台。Hadoop 及其生态系统已经有能力处理更广泛的用例,远超最初设计时的低成本分布式批处理能力。支持了从迭代式的机器学习算法,到

OLAP

OLTP 系统,这些基于“hadoop 集群”的开源分析能力给传统的大玩家们(Oralce,SAS,Teradata,IBM 等)带来了很大的压力。

为规模设计

Apache Kylin 是开源的多维在线分析处理引擎(MOLAP),名字来源于中国的一种神兽“麒麟”。项目最初诞生于 eBay,专为分析处理 PB 级数据集而设计。这里引用一段

Apache 基金会 2015 年 12 月的 Blog:“Apche Kylin 是目前为止大数据领域最好的 OLAP 引擎”,eBay 数据服务与解决方案部门高级总监 Wilson Pang 说到,“在 eBay,我们收集用户在每一个页面的每一个行为。当其他 OLAP 引擎挣扎于数据量的极大膨胀时,Kylin 可以在毫秒级获得查询响应。除此之外,基于 Kylin 我们还实现了近实时的数据流存储和分析。总之,Kylin 在 eBay 产品分析平台中扮演了至关重要的后台核心组件角色。”

如何工作

Kylin 通过预计算实现查询速度的提升,利用

Hive 查询计算多个维度的组合(译者注:此处原文有误,正确应为,Kylin 是通过 Hive 获取数据源,并利用 MapReduce 计算多个维度的任意组合),计算各类指标的聚合值,并将这些中间结果保存在

HBase 中。Kylin 拥有用户友好的查询界面,也支持通过 API 和 JDBC、ODBC 提交查询。查询引擎基于

Apache Calcite 查询处理器和 HBase 的检索功能(比如 fuzzy row filters)实现结果集快速获取。HBase 的 rowkeys 利用

Trie Data Structure 技术实现维度字段字典数据的高效压缩。

当前,Kylin 只支持

星型模型,因此每个Cube 只能有单一的事实表。

建模**** 向导

设计Cube 很容易。假设你已经有了一张Hive 的表,建模向导将帮助你一步步走完设计的流程,包括选择维度(包括层级维度),选择维表,选择指标等。也支持按照日期时间分区,使得Cube 分段刷新易如反掌,这广泛用在了流数据的增量式构建。一旦Cube 定义好了,我们通过Kylin 的监控界面查看Cube 的构建进度。

除了原生的Kylin Web 界面,你可以通过JDBC 查询OLAP Cube,也可以通过Zeppelin(Zeppelin 已经内置了Kylin 的解释器),或者设计良好的REST API。

基于Hadoop 的****OLAP 的其他选项

Kylin 是基于 Hadoop 的 OLAP 技术的一个开源选项。

Apache Lens 是另一个,它是一个

ROLAP 解决方案,并不能实现 Kylin 这种预计算技术所能达到的快速查询响应能力。

Druid 也是一个选项,它采用了自己的集群技术(并不依赖 Hadoop)。也有一些第三方的解决方案,声称支持 Hadoop 之上的 OLAP 能力。

作者:Craig Lukasi,本文已获翻译授权。

译者:刘一鸣(Billy Liu), 现任 Kyligence 产品负责人,负责 Apache Kylin 企业级版本及其他产品的规划和设计。Kyligence 是由 Apache Kylin 核心团队创立的创业公司。

2016-10-12 21:293593

评论

发布
暂无评论
发现更多内容

一句话总结Docker与K8S的关系

快乐非自愿限量之名

Docker Kubernetes 运维 容器化

一致性哈希算法

乐只

一致性Hash算法 分布式协议

水杉在极狐GitLab 的 DevOps 实践

极狐GitLab

【亿级数据专题】「高并发架构」盘点本年度探索对外服务的百万请求量的高可靠消息服务设计实现

洛神灬殇

后端 消息队列 高并发架构 亿级数据 2024年第三十四篇文章

云图说|揭秘云原生服务生命周期治理平台,云原生服务中心OSC

华为云开发者联盟

云原生 华为云 华为云开发者联盟 华为云云图说

有奖讨论丨你能看出来哪些是 AI 写的代码么?

阿里巴巴云原生

阿里云 AI 云原生

苹果证书过期有什么影响

Java 数学运算与条件语句全解析

小万哥

Java 程序人生 编程语言 软件工程 后端开发

成品语聊平台源码快速搭建之部署系统环境

山东布谷科技胡月

语音社交平台搭建 语音直播平台开发 语音聊天室开发

低代码开发技术助力企业数字化管理的实践探究

EquatorCoco

低代码 数字化 企业转型

低代码流程引擎在数字设计平台的应用:简化创作流程,提升生产效率

不在线第一只蜗牛

低代码 数字化 流程引擎

Primevue项目中使用qiankun

麦兜

ACK One Argo工作流:实现动态 Fan-out/Fan-in 任务编排

阿里巴巴云原生

阿里云 云原生 argo

一键部署,5秒开服!最强《幻兽帕鲁》服务器攻略来了!

YG科技

已解决java.lang.IllegalAccessException异常的正确解决方法,亲测有效!!!

小明Java问道之路

如何使用PHP进行数据库索引优化?

百度搜索:蓝易云

php 云计算 运维 Web 云服务器

2023年行摄回忆录

穿过生命散发芬芳

行摄回忆录 盘点2023

EndNote 21 for Mac(文献管理软件) v21.2激活版

iMac小白

1 月 NFT 市场动态:Polygon 增长,Mooar 崛起,TinFun 掀起文化浪潮

Footprint Analytics

加密货币 NFT 链游

Databend 开源周报第 131 期

Databend

今年春节百度网盘把AI玩透了:龙年艺术写真、宠物表情包、定制祝福语

彭飞

概念回顾:分布式拒绝服务 (DDoS) 攻击

NGINX开源社区

nginx DDoS DDoS 攻击 (SSL)/TLS Web 应用防火墙

Kubernetes使用helm部署NFS Provisioner

百度搜索:蓝易云

Linux Kubernetes 运维 云服务器 NFS

聊聊ConcurrentHashMap的存储流程

百度搜索:蓝易云

Java 云计算 Linux 运维 ConcurrentHashMap

【幻兽帕鲁】专用服务器攻略来啦!一键部署,5s开服

华为云开发者联盟

云计算 服务器 华为云 华为云开发者联盟 幻兽帕鲁

得物自研API网关实践之路

得物技术

微服务架构

极致成本,如何基于容器计算服务 ACS 打造企业级幻兽帕鲁私服 SaaS 服务?

阿里巴巴云原生

阿里云 容器 云原生 OpenKruiseGama

打包 iOS 的 IPA 文件

雪奈椰子

聊聊BUG的根因分析

老张

bug bug管理

前端开发CSS实用的技巧有哪些

小齐写代码

Apache Kylin:基于Hadoop的OLAP引擎_DevOps & 平台工程_Craig Lukasi_InfoQ精选文章