【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

Kylin 在满帮集团千亿级用户访问行为分析中的应用

  • 2019-07-19
  • 本文字数:4836 字

    阅读完需:约 16 分钟

Kylin 在满帮集团千亿级用户访问行为分析中的应用

海量数据下的用户访问行为分析一直是一大难题,满帮集团作为全国最大的车货匹配信息平台,每天会产生近十亿的流量数据,半年即达千亿级数据规模,如何做到快速地响应业务方的多维查询、自定义漏斗分析、留存分析、用户画像等流量分析需求,让我们一起来看看陈雅婕对满帮集团为此自研的自助流量分析平台 APPDATA 的分享。


作为大数据团队,需要给公司的各条业务线提供数据服务。为了更好地洞察用户行为,支撑各大事业群的产品和运营同学给用户提供更好、更深层次的服务,我们自研了流量分析平台 APPDATA,代替了分散在各个事业群和业务线的商业化流量分析工具,完成了流量分析的全集团统一。


本文介绍 APPDATA 的演进过程,主要包括:


1)满帮流量分析的业务背景,以及 APPDATA 的产品定位;


2)立项之初的技术架构和实现及遭遇到的问题;


3)将 Kylin 作为 APPDATA 的核心多维分析引擎所带来的巨大改变;


4)对 Kylin 的一些调优操作,以及为了更好的满足业务需求,对 Kylin 做出的一点改造。

APPDATA 是什么?

满帮流量分析的场景特点


第一,满帮流量数据规模盘大。满帮集团作为全国最大的车货匹配信息平台,连接着上千万的司机和货主用户,这些用户每天都会访问平台各种各样的产品来进行发货、找货,以及使用一些如加油、ETC 充值、借贷等服务,从而每天会产生近十亿的流量数据,近半年的数据累计达千亿级。


第二,业务重度依赖流量分析。海量的流量数据记录着非常丰富的用户行为。无论哪条业务线,无论是管理者、数据分析师、产品经理,还是运营人员,都非常希望深入分析流量数据,以此来洞察用户,为各项业务的展开提供决策支持。业务线对流量分析的诉求十分强烈,数据团队每周会收到几十个流量数据相关的需求。


第三,人工提数方式处理需求。在数据团队成立的初期,我们以人工提数的方式处理需求。业务人员每周会把需求提交给数据分析师,数据分析师进行排期、写 SQL 提数,最后把数据反馈给需求方。这种方式非常的原始低效,一方面,业务人员要等较长的时间才能拿到结果;另一方面,人工处理需求的成本非常高,当时我们有两个数据分析师全人力投入支持。


APPDATA 产品定位


针对上述流量分析场景的特点,我们希望能有一款自助流量分析的数据产品,提供给业务人员,快速高效地响应流量分析的需求。同时,也可以将那两个 all in 在流量数据提取工作上的数据分析师解救出来,让他们能专注到更需要「人智」的数据处理工作上。


这款自助流量分析产品就是 APPDATA。我们盘点了之前收到所有流量分析相关的提数需求,梳理出了 APPDATA 的 Feature List:


  • 多维查询:提供在不同维度组合下,页面/自定义事件的 PV、UV、停留时长等指标查询;

  • 自定义漏斗分析:支持用户自定义漏斗转化路径,由系统计算出漏斗每步骤的人数、转化率;

  • 留存分析:提供留存分析,帮助产品做黏性分析;

  • 用户画像:实现流量数据和用户画像标签数据的联动,提供用户画像信息查询。


我们希望通过这四个功能覆盖 80% 的流量分析需求,通过产品满足数据分析,让大数据在驱动业务中工具化,自动化。

早期方案和挑战

明确产品规划之后,我们开始推进产品落地。


早期方案


立项之初,出于效率优先的考虑,采用的方案如下图所示:



用户访问客户端产生埋点数据,上报到数据团队的集群,落到 Hive 中,数据分析师根据业务人员的查询需求,提前编写相应的 SQL 逻辑,在 Hive 中进行计算,通过流程引擎每天将数据结果导入到 MySQL 中,前台再根据相应的筛选条件,进行数据查询以及结果呈现。早期方案能实现以下功能:


T+1 的单维度下,页面/自定义事件的 PV、UV、停留时长指标查询;


自定义漏斗分析,但漏斗模型配置后第二天才会生效输出数据;


有限的留存数据查询,仅支持每个埋点的次日留存人数。


可以看到早期方案实现的效果远未达到最初产品规划的效果,仅能覆盖最基础的流量数据查询需求。然而,随着业务的发展和业务人员数据意识的增强,对流量数据的查询越来越精细化,用户希望得到更丰富的维度、更及时的数据。


早期方案面临的挑战


早期方案存在怎样的问题,导致 APPDATA 无法满足精细化的流量数据查询?总结有以下四个原因:


  • 仅支持单维度条件查询,UV 无法实现二次聚合。UV 的计算不是单纯的相加,需要依据 UID 做去重计算。早期方案需要数据分析师根据用户的查询需求,提前编写 SQL 计算逻辑,而多维度下的 UV 查询需要根据用户的查询条件实时做去重计算,很显然,早期方案无法做到。

  • 用户自定义的数据,如漏斗分析,配置需要 T+1 才能生效。用户在系统上新建漏斗,需要第二天才能看到结果。这个延迟是非常影响业务,因为新加的漏斗,往往会包含新上线的埋点,那么新上线的埋点需要 T+1 出数据,漏斗配置又需要 T+1 才有数据,无法在最好的时机支持运营策略和产品设计上的调整。

  • 人工编写 SQL 计算逻辑,维护起来很困难,开发周期长。APPDATA 上流量指标的计算较为复杂,由数据分析师编写 SQL 逻辑,维护起来很麻烦,当有调整时,需要一定的开发周期,无法快速响应业务上的诉求。

  • 埋点数据量庞大,导致 MySQL 查效率低。系统时常出现查不出来数据的情况,使得用户对系统的可靠性产生怀疑。

基于 Kylin 的解决方案

针对上述存在的诸多问题,研发团队提出引入 Apache Kylin 作为系统的核心计算引擎加以解决。


为什么选择 Kylin?


回答这个问题,主要还是从实际面临的问题出发思考。下图的左边是上文提到的早期方案存在的四个问题,右边是 Kylin 的一些特性,可以看到 Kylin 特性能较好的解决问题。



  • Kylin 是一个 OLAP 引擎,可以非常快速地响应海量数据的多维查询场景。对于 UV 二次聚合,可以将 UV 存储成 Bitmap,这样就可以实现根据用户查询条件的二次聚合;

  • Kylin 有灵活的框架,支持函数功能扩展,可以利用它提供的交集函数解决自定义数据 T+1 生效的问题;

  • Kylin 提供了一个可视化管理界面,只需在前期对数据做简单的处理和转化,后续的数据处理工作都可以在界面上完成,包括定义 Cube 模型、处理数据、到最后的查询,不用写一行代码,可以大大地提高效率;

  • Kylin 使用 HBase 来存储数据,不会有 MySQL 那样存太多导致查询效率低的问题。


除此之外,还有两个原因:


  • 成本问题,Kylin 支持标准 SQL,可使用 JDBC 连接,早期方案也使用 JDBC 连接,新旧方案切换成本比较可控;

  • Kylin 支持 T+0 Cube 构建,可以让 APPDATA 提供 T+0 流量数据查询,我们认为实时数据的查询也是非常有必要的。


基于上述的这些原因,我们选择引入 Kylin 作为 APPDATA 的核心计算引擎。


Kylin 和 APPDATA 结合的技术架构


APPDATA 和 Kylin 结合的技术架构图如下所示:



从左往右,客户端产生埋点数据,上报到大数据,这些数据首先通过 Kafka 接进来。对于 T+1 的数据,数据写入 Hive,每天的凌晨根据事先写好的 SQL 逻辑对数据做简单的处理和转化,最终形成一张宽表, 然后根据配置好的 Cube 模型,每天构建一次,然后将结果数据导入到 HBase;对于 T+0 的数据处理,数据进来后会落到 Kafka,在两个 Kafka 之间我们用程序做了数据转化的工作,最终的效果也是形成一张宽表,这里和离线数据不同的是,Cube 构建是每十分钟构建一次,同样的,结果数据也会导入到 HBase。数据都准备好之后,剩下的就是响应用户的查询了。


新方案能做到哪些早期方案做不到的功能:


  • 多维查询:系统有十多个维度可以相互交叉,并且和任意日期关联。在新的方案中,对于这种多维的查询,不再需要像以前一样,提前梳理用户可能查询的指标,对数据建模,然后再进行复杂的数据处理,只需要对数据进行简单的处理和转化,配置好 Cube 的模型,然后构建 Cube,APPDATA 根据查询条件生成相应 SQL 请求 Kylin,就可以得到结果,整个过程非常的优雅;

  • 虚拟埋点:虚拟埋点就是若干个埋点组合成的埋点,在很多场景下,只查询单个埋点的数据是不够的,需要拉通全域流量数据来看。而虚拟埋点涉及到 UV 聚合去重,早期方案是做不到的,而在新的方案中,只要用户把这个虚拟埋点具体包含哪些埋点告诉系统,系统生成 SQL 去查询 Kylin 就可以;

  • 自定义漏斗 2.0:在新方案中,我们利用 Kylin 提供的交集函数,实现了漏斗配置后即刻返回结果数据的效果;

  • T+0 流量数据:新的方案实现了 T+0 的流量数据查询,端到端的延迟大概是 15 分钟左右。


显然,新的实现方式能够更近一步支持精细化的流量分析,提供丰富的维度、T+0 的数据、即时灵活的自定义数据,让系统的功能得到了非常强大扩展。


数据情况和运行效率


  • 硬件配置


Kylin 集群总共有三台服务器,一台用于构建 Cube,两台用于查询;HBase 服务器一共八台,每台机器内存 256GB,CPU 24 核,硬盘 8TB;计算集群服务器 60 台,内存 192GB,CPU 24 核,硬盘 144TB。


  • 数据量


目前 APPDADA 生产线上有 5 个 Cube,每天有八九亿的数据增量,提供近半年数据查询,共累计了 10+T 的数据。接入了 8 个客户端,覆盖公司所有业务线的流量数据。


  • 并发量


APPDATA 以 Web 服务和 API 两种形式服务于公司内部业务人员和业务系统,业务人员的数量在 150 个人左右,对接广告系统、活动运营平台两个业务系统。


  • 查询效率


查询的效率依赖于查询条件的复杂程度,经过简单的测试,目前我们 85% 的查询是小于 800 毫秒,95% 的查询小于 3 秒,99% 的查询小于 7 秒。

调优和改造

在文章的最后,介绍在使用 Kylin 的过程中,做的一些调优操作,以及为了实现业务上的需求,对 Kylin 做的一点改进。


性能调优


首先,我们对维度做了优化。Kylin 核心的工作就是构建 N 个维度的 Cube,实现聚合的预计算。理论上,构建 N 个维度的 Cube 会生成 2 的 N 次方个 Cuboid。随着维度的增加,Cuboid 的数量会爆炸式地增长,给 Cube 的构建带来巨大的压力。而在实际数据查询中一些维度之间的组合是不必要的。这样就可以通过修剪无查询需求的 Cuboid,来缓解 Cube 构建的压力。


第二个是 Rowkey 的顺序优化。一般而言,Kylin 以 HBase 作为存储引擎,而 HBase 是以 Rowkey 顺序存储行的,设计良好的 Rowkey 将更有效地完成数据的查询过滤和定位,减少 IO 次数,提高查询速度。这意味着我们可以把查询中被用作过滤条件的维度放在非过滤条件维度的前面,基数较高的维度,放在基数较低维度的前面,这样就可以跳过一些不必要的扫描,快速的定位到查询场景。通过种方式,可以将绝大部分的查询效率稳定在亚秒级。


上述的这两个调优操作都能在 Kylin 提供的可视化界面的「高级配置」设置完成。


在应用层面的一点改进


为了帮助提升产品关键路径的转化,我们支持产品同学到 APPDATA 上构建漏斗,上文中提到我们用 Kylin 提供的交集函数来计算漏斗数据。假设一个两步的漏斗,计算时,先分别独立计算访问过两个步骤的用户数,得到的第一步的用户数作为第一步的人数,然后求两群人的交集,得到的人数作为第二步的人数。这里的求交集就是用到交集函数。


为了满足业务上的需要,在配置漏斗时,每一个步骤可以是单个的埋点,也可以是由多个埋点组合成的虚拟埋点。而单个埋点和虚拟埋点是有差异的,前者是物理上的概念,后者是逻辑上的。Kylin 原本提供的交集函数只能支持物理概念上的单个埋点,而不支持多个埋点组合成虚拟埋点,也就是说,不可以先对单个埋点求并集,然后再求交集。在这里,我们所做的改造就是扩展交集函数支持逻辑上的虚拟埋点。可以看到扩展后,我们可以先让单个埋点做或者运算,再求交集。




我们用扩展后的交集函数计算漏斗和留存数据。对于漏斗,用户先创建虚拟埋点,绑定若干个埋点,再创建漏斗,后台调用交集函数,给出结果。对于留存数据,用户也是先创建虚拟埋点,系统调用交集函数,计算每个虚拟埋点的日留存、周留存、月留存数据。


最后,要感谢 APPDATA 开发团队的成员华强、钟亚雄同学,以及建议 APPDATA 引入 Kylin 的 王贤彬同学,正是因为大家的努力才使得基于 Kylin 的解决方案成为可能。


作者介绍


陈雅婕(WeChat ID:chenyajie1992),前满帮集团大数据产品经理,曾就职于百度大数据部,多年数据产品工作经验,先后负责多款大数据产品的搭建,帮助数据团队从提数阶段向数据产品阶段转变。


原文链接


https://mp.weixin.qq.com/s/77fveA9q_AQWBYYxpdpgYg


2019-07-19 14:0013013
用户头像

发布了 44 篇内容, 共 12.6 次阅读, 收获喜欢 81 次。

关注

评论

发布
暂无评论
发现更多内容

MobTech 秒验|本机号码一键登录

MobTech袤博科技

Swift之struct二进制大小分析

京东科技开发者

swift App struct 移动开发 企业号 3 月 PK 榜

Java开发新手必读:PO、VO、DAO、BO、DTO、POJO,区别在哪儿?

Java你猿哥

Java 后端 ssm Java工程师 Java基础知识点

OceanBase 信息技术服务管理体系通过 ISO20000 认证和 ITSS 认证

OceanBase 数据库

数据库 oceanbase

四个上海等保小知识汇总-行云管家

行云管家

等保 等级保护 等保测评 上海

裸辞跳槽底气!字节在职大佬“Java面试总汇2023”大厂都在考

Java你猿哥

Java 面试 ssm 面经 Java工程师

mysqldump 详解

GreatSQL

MySQL greatsql greatsql社区

vue面试题八股文简答大全 让你更加轻松的回答面试官的vue面试题

肥晨

Vue 面试题 金三银四 超全前端面试题

聊聊不太符合常规思维的动态规划算法

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 3 月 PK 榜

火山引擎DataTester推出可视化数据集成方案

字节跳动数据平台

数据集成 ab测试 A/B 测试 可视化开发 企业号 3 月 PK 榜

Swift之struct二进制大小分析

京东科技开发者

swift 数据结构 struct 二进制 企业号 3 月 PK 榜

首届OceanBase开发者大会|NineData首席架构师谭宇受邀参会,并发表了主题演讲

NineData

多云架构 数据管理 oceanbase 开发者大会 NineData

IPv6是什么意思?哪款堡垒机支持IPv6资产纳管?

行云管家

资产管理 堡垒机 ipv6

Java基础_面试题

三十而立

视频下载出来为网页格式?如何将视频转换为mp4格式?

Rose

视频格式转换 Mac视频格式转换 视频下载出来为网页

机器学习实战系列[一]:工业蒸汽量预测(最新版本上篇)含数据探索特征工程等

汀丶人工智能

数据挖掘 机器学习 决策树 LightGBM

百度内容理解推理服务FaaS实战——Punica系统

百度Geek说

云原生 Faas 成本优化 企业号 3 月 PK 榜 AI推理

数仓安全测试之SSRF漏洞

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 3 月 PK 榜

Vue+Spring-Security前后端分离登录实现

做梦都在改BUG

即时通讯技术文集(第11期):IM通信格式的选型及Protobuf专题 [共16篇]

JackJiang

网络编程 即时通讯 IM

钉钉协作Tab前端进化之路

阿里技术

前端 钉钉

无人机巡检场景小目标检测与量化加速部署方案详解

飞桨PaddlePaddle

人工智能 无人机 目标检测 飞桨 PaddlePaddle

苹果发布macOS Ventura 13.3正式版更新

Rose

mac系统 苹果最新系统 macOS Ventura 13.3

为什么 MySQL 不推荐使用 join?

Java你猿哥

Java MySQL sql 后端 ssm

2023高质量Java面试题集锦:高级Java工程师面试八股汇总

采菊东篱下

Java 面试

Github上获赞59.8K的面试神技—1658页《Java面试突击核心讲》

三十而立

SQL Chat - 基于 ChatGPT 的对话式交互 SQL 客户端

Bytebase

sql database ChatGPT

吐血整理!互联网大厂最常见的1120道Java面试题(带答案)整理

架构师之道

Java 面试

ShareSDK Android端权限说明

MobTech袤博科技

揭秘网页性能监控|如何从多个角度分析监控结果

云智慧AIOps社区

监控 监控宝 网站监控 网页性能优化 监控产品

工作10年,面试超过300人想进阿里的同学,总结出的java面试69题

三十而立

Java java面试

Kylin 在满帮集团千亿级用户访问行为分析中的应用_大数据_apachekylin_InfoQ精选文章