最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

卷皮 OLAP 平台进化史:Apache Kylin 在卷皮网大数据平台的运用

  • 2018-09-18
  • 本文字数:4076 字

    阅读完需:约 13 分钟

AI 前线导读:“卷皮网”是一家专注高性价比商品的移动电商 ,日活跃高达 1000 多万,随着卷皮网的快速发展,数据规模快速增长,集群数据存储量成指数倍增大,服务器规模达到 100+ 台,与此同时公司的运营成员急剧增加,数据需求也随着业务的发展落地不断增长,如统计分析、运营报表、取数需求任务日益增大。为了节省取数工作的时间和人员开支,及时响应运营等部门同学数据需求的快速响应,于是开发了以自助数据分析为目标的 OLAP 平台。本文将详解 Apache Kylin 在卷皮网大数据平台的运用。

更多优质内容请关注微信公众号“AI 前线”(ID:ai-front)

前言

在开始案例分享前,先简单介绍一下“卷皮网”以及“卷皮网”的大数据团队“卷皮网”是一家专注高性价比商品的移动电商 ,日活跃高达 1000 多万“卷皮网”的大数据团队规模在 40 人左右,主要负责公司的底层数据仓库建设、OLAP 平台、报表系统等数据可视化工具,以及数据挖掘在搜索排序推荐上的应用、爬虫物流平台的建设、鹰眼风控系统、拨云日志系统等。

随着卷皮网的快速发展,数据规模快速增长,集群数据存储量成指数倍增大,服务器规模达到 100+ 台,与此同时公司的运营成员急剧增加,数据需求也随着业务的发展落地不断增长,如统计分析、运营报表、取数需求任务日益增大。为了节省取数工作的时间和人员开支,及时响应运营等部门同学数据需求的快速响应,我们于是开发了以自助数据分析为目标的 OLAP 平台。随着公司业务的日益扩增,平台经历了如下发展过程。

早期的 ROLAP

起初,数据规模较小,业务线比较简单,而且需求比较碎,故主要采取如下 ROLAP 引擎支撑:

具体流程: 通过埋点采集用户行为数据,通过 Datax 和 Otter 同步数据到 Hive 集群和 MySQL 集群,数据开发工程师通过 Etl 脚本 (Hive 脚本和 MySQL 存储过程) 两种方式将最终结果数据落地到 MySQL 数据库,最终呈现给业务方使用,还有一部分灵活定制的是通过邮件平台每日生成 Excel 附件,邮件推送给业务方

以 Presto+Mondrian 为核心的 MOLAP 平台

随着数据规模的增长和需求的增多,瓶颈逐渐显现。每个需求都要开发数据脚本,维度增加,开发周期拉长,同时需要耗费更多的人力,无法快速产出数据和响应需求变化。我们采用了 Saiku+Mondrian+Presto+Hive 的技术架构,通过分隔不同的业务线,最终生成若干个 Cube,提供给运营的同学使用,基本满足了业务方 90% 的数据需求。

使用 Kylin 解决超大规模数据分析 

Kylin v1.6

由于 Presto 是在线运算执行查询的,在日增上亿数据查询的时候,表现极为吃力。于是我们于 2016 年 8 月份开始引入 Apache Kylin(以下简称 Kylin),将用户行为数据等超大规模数据迁移到 Kylin 上,同时大大缓解 Presto 集群的压力。

由于 Kylin 的基本原理是通过预计算实现空间换时间,Presto 需要在线查询源数据,所以 Kylin 的性能远远好于 Presto,Kylin 和 Presto 的查询性能对比。

该版本只支持星型模式,在 MR 上进行构建 Cube。起初我们根据业务线设计 Cube,其中最大的一个 Cube,维表 20+,其中包含若干高基数维,我们在预聚合的时候发现该 Cube 处理时间非常长,甚至造成内存溢出。于是我们对 Cube 进行了优化,以下是用到的一些优化手段:  

1. 我们将该 Cube 根据业务细分成若干个 Cube, 同时对高基数维度做了优化

2. 使用了 Cube 构建的高级设置。这些高级设置包括聚合组(Aggregation Group)、联合维度(Joint Dimension)、层级维度(Hierarchy Dimension)和必要维度(Mandatory Dimension)等。基于这些设置,我们对拆分后的 Cube 进行了进一步的优化

(1) Mandatory Dimension

一般设置查询时经常使用的维度,我们使用了日期作为必需维度

(2)Hierarchy Dimension

如果维度关系有一定层级性、基数由小到大的情况可以使用层级维度。比如年月日,省市区,一级类目二级类目三级类目等等

(3)Joint Dimension

如果维度之间是同时出现的关系,即查询阶段,绝大部分情况都是同时出现的。可以使用 联合维度。

根据高级配置后,虽然牺牲了部分查询的查询性能,但是极大的优化了预聚合的性能。以下是优化之后的性能指标:

Apache Kylin v2.x 版本升级

2017 年 4 月 30 号 Kylin v2.0 版本发布,不到三个月的时间,v2.1 版本正式发布。这两个版本主要有使用 Spark 做预聚合,支持雪花模型等新特性,对于我们解决 OLAP 预聚合慢的需求可以提供更多支持,并解决老版本的 Cube 构建时长、构建不稳定等问题。以下是 v1.6 版本和 v2.1 版本的一个对比:

场景 1:新版本 MR 构建性能对比

事实事导入 2kw(2g) 测试数据, 使用 19 个维度 (维度基数在 1w 以下),6 个 Count Distinct(Bitmap),8 个普通指标,聚合方式:2^10 (无 Join Dimension, 无 Mandatory Dimensions),以 MR 引擎进行构建。

场景 2:Spark 构建性能以及 Join Dimension

事实事导入 1kw(1.4g) 测试数据, 使用 16 个维度 (维度基数在 1w 以下),4 个普通指标,聚合方式 : (2^3 + 2^4 + 2) (有 Join Dimension, 有 Mandatory Dimensions),以 Spark 和 MR 引擎分别进行构建。

场景 3:维表数量对性能的影响

事实事导入 3kw(3g) 测试数据, 使用 15 个维表,30+ 维度 (维度基数在 1w 以下),12 个 Count Distinct(bitmap),8 个普通指标,聚合方式:2^5 + 2^5 + 2^5 (有 Join Dimension, 无 Mandatory Dimensions),以 MR 引擎进行构建。

由于这两个版本的 MR 构建性能差异较大,单独对比各阶段的耗时,发现 v2.1 有了全面的提升。

应用场景

我们的业务场景根据数据规模和业务复杂度来使用不同的技术框架。趋势如下:

数据业务需求可视化结构

曝光转化分析是对平台坑位的曝光点击率做多维分析的 Cube,日增数据量在数亿级别。用户画像分析是对基于平台所有用户的属性做多维分析的 Cube,日增数据在三千万左右。

以下我们成单路径分析为例做详细介绍:

简介:  成单路径是围绕用户从浏览页面到最终下单到支付的整个生命周期的用户行为路径分析。采用的是归因算法。我们采用的归因方法是事先对我们平台的页面进行划分层级,用户在返回上一层级的时候重新覆盖。这样我们在计算最终转化率能达到,一个订单最终只归到一条下单路径,具体的页面划分层级如下:

下表是成单路径的维度和指标说明

初期我们使用 Presto 来做成单路径分析,当时数据量日增还在 1 千万左右,90% 查询在 10 秒以内。随着公司用户规模的增长,行为数据呈指数级增加,数据高峰时期日增达到上亿级别,Presto 的查询显得有点力不从心,我们引进了 Kylin,大大得缓解了问题,90% 的查询的性能回归到 1 秒以内。后记:

卷皮 OLAP 一年多时间经历了三次重大的变革,目前平台采用 Presto 和 Kylin 两种引擎并用,事实表日增数量级在千万级别或以下,维表数多在 15 张以上最好采用 Presto,而事实表日增数量级在千万级别以上乃至上亿,维表数小于 15 个时候可以采用 Kylin。采用 Kylin 一定要将模型提前设计周全,不要频繁变更,因为每次模型变更数据都需要重刷,重新聚合,费时费力。

作者简介

许湘楠, 毕业于武汉大学, 有多年的 WEB 系统开发经验,现就职于武汉奇米网络科技公司 (卷皮网), 担任大数据开发工程师,主要负责公司 OLAP 平台研发。

2018-09-18 18:142346

评论

发布
暂无评论
发现更多内容

IPP Swap算力挖矿系统开发|LP挖矿孵化器开发模式

西安链酷科技

云算力挖矿源码

5大支撑能力,6大系统优势!解读龙蜥场景化镜像平台技术

OpenAnolis小助手

AI 操作系统 国产操作系统 龙蜥社区

虚拟仿真云:从传统仿真到云仿真的转变与应用

3DCAT实时渲染

虚拟仿真 仿真云

RAG 修炼手册|RAG 敲响丧钟?大模型长上下文是否意味着向量检索不再重要

Zilliz

大模型 Zilliz 向量数据库 rag

钱包存币质押理财系统开发案例

西安链酷科技

钱包系统开发

NewFi质押生息系统Dapp开发|BSC链智能合约开发技术

西安链酷科技

DAPP智能合约交易系统开发

Stepn跑鞋NFT链游系统开发跑步玩法介绍

西安链酷科技

运动挖矿

Partisia Blockchain:如何做到兼顾隐私、高性能和可拓展?

西柚子

Go连接池复用踩坑

三七互娱后端技术团队

golang

在线教学用什么软件?这款可视化白板工具值得推荐!

彭宏豪95

培训 在线白板 办公软件 在线协作 在线教学

积分商城系统软件开发方案设计初稿

西安链酷科技

积分商城

英特尔锐炫最新驱动首日支持国产武侠大作《射雕》,开启流畅武侠之旅!

E科讯

NVIDIA AI 新网络助力龙蜥提升网络通信速率

OpenAnolis小助手

AI 操作系统 国产操作系统 龙蜥社区

《计算机网络: 自顶向下方法(原书第7版)》PDF

程序员李木子

ai智能写作网站免费!5款工具轻松生成高质量内容!

彭宏豪95

人工智能 写作 在线白板 AIGC AI工具

教学必备的9个教案和课件网站!建议收藏!

彭宏豪95

效率工具 培训 在线白板 办公软件 在线教学

一文读懂兼顾隐私、高性能和可拓展的公链Partisia Blockchain

大瞿科技

一文读懂兼顾隐私、高性能和可拓展的公链Partisia Blockchain

加密眼界

智算创新 云峦同行!龙蜥衍生版浪潮信息 KeyarchOS 的 10 年发展历程

OpenAnolis小助手

开源 操作系统 国产操作系统 龙蜥社区

体验 AIGC 魅力!龙蜥社区邀请您从零开始部署运行 GPT-2 大语言模型

OpenAnolis小助手

操作系统 国产操作系统 龙蜥社区 人人都可以参与开源

WorkPlus最佳的内网通讯软件解决方案,助力企业构建高效沟通环境

WorkPlus

短剧CPS分销系统程序开发(聚合CPS)

西安链酷科技

短剧app开发

《龙蜥理事说》正式上线,龙蜥携手浪潮信息共同应对 AI 时代新需求

OpenAnolis小助手

开源 操作系统 国产操作系统 龙蜥社区

Cloud Kernel SIG 月度动态:ANCK 特性新增芯片厂商支持、新版本发布

OpenAnolis小助手

操作系统 国产操作系统 龙蜥社区 龙蜥社区SIG

WorkPlus智能AI助理:定制化部署,拓展企业协作新境界

WorkPlus

WorkPlus Meet构建局域网视频会议解决方案,助力企业协同与沟通

WorkPlus

将比特币安全性带到Persistence One

股市老人

C++ 字符串完全指南:学习基础知识到掌握高级应用技巧

小万哥

程序人生 编程语言 软件工程 C/C++ 后端开发

短剧视频app软件开发公司

西安链酷科技

微短剧 短剧app开发

NFT链游Jogger慢跑者系统开发(跑鞋模式)

西安链酷科技

NFT链游

提升龙蜥内核测试能力!探究持续性模糊测试优化实践

OpenAnolis小助手

操作系统 国产操作系统 龙蜥社区 Anolis OS

卷皮OLAP平台进化史:Apache Kylin在卷皮网大数据平台的运用_开源_许湘楠_InfoQ精选文章