写点什么

Apache Kylin 权威指南(二):工作原理

  • 2020-04-14
  • 本文字数:1414 字

    阅读完需:约 5 分钟

Apache Kylin权威指南(二):工作原理

编者按:本文节选自华章科技大数据技术丛书 《Apache Kylin 权威指南(第 2 版)》一书中的部分章节。

Apache Kylin 的工作原理

Apache Kylin 的工作原理本质上是 MOLAP(Multidimensional Online Analytical Processing) Cube,也就是多维立方体分析。这是数据分析中相当经典的理论,在关系型数据库年代就有广泛应用,下面对其做简要介绍。

维度和度量简介

在说明 MOLAP Cube 之前,需要先介绍一下维度(dimension)和度量(measure)这两个概念。


简单来讲,维度就是观察数据的角度。比如电商的销售数据,可以从时间的维度来观察(如图 1 的左图所示),也可以进一步细化从时间和地区的维度来观察(如图 1 的右图所示)。维度一般是一组离散的值,比如时间维度上的每一个独立的日期,或者商品维度上的每一件独立的商品。因此,统计时可以把维度值相同的记录聚合起来,应用聚合函数做累加、平均、去重复计数等聚合计算。



图 1 维度和度量


度量就是被聚合的统计值,也是聚合运算的结果,它一般是连续值,如图 1 中的销售额,抑或是销售商品的总件数。通过比较和测算度量,分析师可以对数据进行评估,比如今年的销售额相比去年有多大的增长、增长的速度是否达到预期、不同商品类别的增长比例是否合理等。

Cube 和 Cuboid

了解了维度和度量,就可以对数据表或者数据模型上的所有字段进行分类了,它们要么是维度,要么是度量(可以被聚合)。于是就有了根据维度、度量做预计算的 Cube 理论。


给定一个数据模型,我们可以对其上所有维度进行组合。对于 N 个维度来说,所有组合的可能性有 2N 种。对每一种维度的组合,将度量做聚合运算,运算的结果保存为一个物化视图,称为 Cuboid。将所有维度组合的 Cuboid 作为一个整体,被称为 Cube。所以简单来说,一个 Cube 就是许多按维度聚合的物化视图的集合。


举一个具体的例子。假定有一个电商的销售数据集,其中维度有时间(Time)、商品(Item)、地点(Location)和供应商(Supplier),度量有销售额(GMV)。那么,所有维度的组合就有 24=16 种(如图 2 所示),比如一维度(1D)的组合有[Time][Item][Location][Supplier]四种;二维度(2D)的组合有[Time, Item][Time, Location][Time、Supplier][Item, Location][Item, Supplier][Location, Supplier]六种;三维度(3D)的组合也有四种;最后,零维度(0D)和四维度(4D)的组合各有一种,共计 16 种组合。


计算 Cuboid,就是按维度来聚合销售额(GMV)。如果用 SQL 来表达计算 Cuboid [Time, Location],那就是:


select Time, Location, Sum(GMV) as GMV from Sales group by Time, Location
复制代码



图 2 四维 Cube


将计算的结果保存为物化视图,所有 Cuboid 物化视图的总称就是 Cube 了。

工作原理

Apache Kylin 的工作原理就是对数据模型做 Cube 预计算,并利用计算的结果加速查询。过程如下:


(1)指定数据模型,定义维度和度量。


(2)预计算 Cube,计算所有 Cuboid 并将其保存为物化视图。


(3)执行查询时,读取 Cuboid,进行加工运算产生查询结果。


由于 Kylin 的查询过程不会扫描原始记录,而是通过预计算预先完成表的关联、聚合等复杂运算,并利用预计算的结果来执行查询,因此其速度相比非预计算的查询技术一般要快一个到两个数量级。并且在超大数据集上其优势更明显。当数据集达到千亿乃至万亿级别时,Kylin 的速度甚至可以超越其他非预计算技术 1000 倍以上。


图书简介https://item.jd.com/12566389.html



相关阅读


Apache Kylin权威指南(一):背景历史和使命


2020-04-14 10:001557

评论

发布
暂无评论
发现更多内容

ShareMouse for mac(跨平台鼠标和键盘共享软件)

春天的风暖暖的

第五届智慧交通与城市工程国际学术会议 (STCE 2025)

搞科研的小刘

前沿技术 学术会议 智慧交通与城市

传统DNS解析技术存在的七大弊端

防火墙后吃泡面

深入解析YashanDB数据库的核心技术与应用优势

数据库砖家

Commander One for Mac(双窗口文件管理器)

春天的风暖暖的

【仓储RFID通道机推荐】如何选到识别精准、适合出入库的设备?

斯科信息

斯科信息 RFID通道机 RFID仓储批量盘点

AI智能体的开发流程

北京木奇移动技术有限公司

AI智能体 AI技术开发 软件外包公司

高客单价 VS 低客单价产品,达人营销的打法差异有多大?

Wolink

跨境电商 出海 海外营销推广 沃链Wolink 达人营销

深入解析YashanDB数据库的核心技术优势与应用场景

数据库砖家

【五邑大学主办】第五届电子信息工程与计算机技术国际学术会议(EIECT 2025)

搞科研的小刘

数据 电子信息工程 计算机技术

Affinity Designer for Mac(强大的矢量图设计软件)

春天的风暖暖的

9 月热搜精选

KaiwuDB

数据库

应用自更新功能丨开发加油站

荣耀开发者服务平台

荣耀开发者服务平台 功能实现 荣耀HONOR 荣耀应用市场

欢迎提报!「2025 龙蜥社区年度优秀贡献者」评选正式启动

OpenAnolis小助手

操作系统 龙蜥社区 年度评选 优秀贡献者

《Confidential MaaS 技术指南》发布,从 0 到 1 构建可验证 AI 推理环境

OpenAnolis小助手

操作系统 龙蜥社区 Confidential MaaS 机密计算技术

Tampermonkey for Mac(油猴Safari浏览器辅助插件)

春天的风暖暖的

Audition 2025 for Mac(au 2025)

春天的风暖暖的

AI 智能体开发框架

北京木奇移动技术有限公司

AI智能体 AI技术开发 软件外包公司

微课:如何运用 Scrum 打造一个高绩效的团队

ShineScrum

2026杭州国际智慧城市与物联网展览会

AIOTE智博会

物联网展览会 智慧城市展会 物联网展 智慧城市展 智慧城市博览会

给敏捷模式做下体检——多方位TIDB敏捷模式和MySQL的性能测试(下)

TiDB 社区干货传送门

平凯数据库敏捷模式

深入解析YashanDB数据库的核心优势与应用场景

数据库砖家

Navicat for MySQL Mac(数据库管理开发工具)

春天的风暖暖的

sublime text for Mac(代码编辑器)

春天的风暖暖的

CST软件的电磁+热一体化仿真

思茂信息

cst CST软件 CST Studio Suite

3.1.8<3.2.0<3.3.1,Apache DolphinScheduler集群升级避坑指南

白鲸开源

开源 大数据任务调度 Apache DolphinScheduler 集群部署 版本升级

AI智能体的开发流程

北京木奇移动技术有限公司

AI智能体 AI技术开发 软件外包公司

Termius for Mac(SSH客户端)中文

春天的风暖暖的

MAMP PRO for Mac(专业的Web开发环境)

春天的风暖暖的

Ableton Live 12 Suite for mac(音乐制作工具)

春天的风暖暖的

深入了解 YashanDB 并掌握构建高效数据库的最佳实践

数据库砖家

Apache Kylin权威指南(二):工作原理_架构_Apache Kylin核心团队_InfoQ精选文章