Kylin 在携程的实践（下）_架构_apachekylin_InfoQ精选文章



 写点什么

登录/注册

Kylin 在携程的实践（下）

案例分享

离线分析案例

携程之前使用的是 OpenTSDB+Hive。采用 Kylin 前，先从 Hive 先生成聚合表，然后导入 HBase，通过 OpenTSDB 去分析，现在积累了接近百亿的数据，随着数据的增长，老的方案已经无法满足业务需求了，而且同步数据成本高，OpenTSDB 没办法支持精准去重响应时间也很差。用了 Kylin 之后，现在的业务规模已经可以支撑上百亿了，目前已经配有 200 个左右的线上活跃的 Cube。

实时分析案例

这个是去年 3、4 月份用户提的新需求。Kylin 现在是上图所示的 Streaming-Cube 的架构，Kylin 接入的是携程的 Hermes，Hermes 是 Kafka 的一个封装。我们现在支持原生 Kafka 接入和 Hermes 接入，底层沿用 MR，因为我们测试过 Spark，其实很多的场景上和 MR 相当，效果不是特别明显。

这部分主要是用于度假预订状态告警，度假团队需要去分析用户预订的情况，准确实时地发送给客服人员任何预订失败等错误状况，所以这块对于数据构建落地的时间敏感度比较高。目前，通过一系列优化，Streaming 的构建基本保持在 5 分钟左右，可以满足一部分业务的需求。但是，更大的挑战是达到一分钟以内，也就是说秒级构建，所以对于我们来说 Streaming-realtime 会是一个值得尝试的方向。

展望

携程针对 Kylin 主要有两方面的展望。

1 支持自动构建 Cube

这块我们目前在调研，通过分析应用采集的元数据、SQL 特征，可以自动地为用户构建 Cube，为用户节约 Kylin 的学习成本，同时减少重复查询对于 MPP 的压力。

2 Real-time Streaming 的调研和落地

为了能够更加丰富 Kylin 的使用场景，我们打算对 eBay 为 Kylin 贡献的实时流处理技术做进一步调研和落地工作。

Q&A

Q：演讲中提到的构建的 Cube 有 20 个指标，这种情况下去重，是精准去重还是近似去重？有多少个指标呢？

A：用户配的是精确。精确去重指标不会太多。

Q：演讲中提到 20 个维度的响应时间是亚秒级，有 20 个维度。请问你们做了哪些优化的工作来达到如此快的响应时间？

A：我们构建的时候，对于这种维度多的情况，建议当用户采取了以下 3 种措施来优化查询：

使用 Mandatory Dimension；
实现分布式缓存；
配置高基维度的时候，会建议他们把高基维度往前移，这样会更高效地命中 Cube，并减小扫描的数据范围）。

Q：配了 20 个维度，最终产生的 Cube 单日有多大？

A：最大的 Cube 日产生 13 T 的数据。

Q：刚刚提到的监控方案是你们自主研发的，还是有开源的方案可以用？

A：监控是我们自主研发的。我们接入了公司已经成熟的监控平台，避免反复造轮子。

Q：分享里提到的实时 5 分钟构建一次，我理解是采用批操作，并不是真正的流，而是把流几分钟拆成一个批次。是吗？

A：对的。

Q：前面讲到底层用的 MR，没用 Spark，因为觉得时间上并没有什么节省。这个是 Spark 本身的原因，还是因为你们的任务还不是很大的量？因为每次 Spark 启任务的时间和 MR 相比有差别？

A：离线这块目前可以达到要求，所以还没有转成 Spark。我们在实时这块用 Spark 的过程中，就是像你说的，每次提交任务就很慢，达不到要求。

Q：是因为频繁提交的问题？不是因为它本身？

A：对，不是因为它本身。我们也在调研如何避免每个构建过程都启动一次 driver。

Q：在我之前的应用场景里，有一个维度特别的高基维，每天增量就很大，我们查询机制里这个维度是必选的。比如说是人的工号，里面放了很多人，然后我们要去预计算，如果说这个维度非常高，数据量会非常大，这种情况下你们会采取什么办法呢？

A：高基字段可以设置下 shard by。

Q：携程每天预计算的集群大概是有多大？

A：离线集群是 2 台物理机，每台 100 多 G 的物理机，查询节点放了 4 台虚机。实时这块，因为用户量目前不多，所以都是建在虚机上，所以内存也不大。

Q：在维度特别大，数据量又很大的情况下，剪枝的话，Cuboid 大概会控制在多少？

A：维度特别大的情况，我们最多是 4096 个 Cuboid。

本文转载自公众号 apachekylin（ID：ApacheKylin）。

原文链接：

Kylin 在携程的实践（下）

评论

发布

暂无评论

2025 AICon上海站

基于YOLOv8的河道垃圾塑料瓶子识别项目｜完整源码数据集+PyQt5界面+完整训练流程+开箱即用！

吃透Java基础面试八股文

Java 程序员 java面试 Java面试题

2025年金九银十最全 Java 面试八股文(真实，高频，有详细答案)

Java 程序员 java面试 Java面试题

准确率从 19% 提升至 95%！文本审核模型优化的三个阶段实践（上）

亚马逊云科技 (Amazon Web Services）

mac吉他原生插件 Ample Sound Ample Guitar M

等保测评扎心真相

2025北京智源大会闭幕|黄铁军：构建物理智能体，具身智能目标是星辰大海

智源研究院

HarmonyOS运动语音开发：如何让运动开始时的语音播报更温暖

王二蛋和他的张大花

详解鸿蒙Next仓颉开发语言中的动画

时序数据库 IoTDB 官方可视化平台 Workbench，一文全面了解！

时序数据库 TimechoDB V2.0.4 发布 | 新增用户自定义表函数及多种内置表函数等功能

ArkUI-X与Android消息通信

Prefix Caching 详解：实现 KV Cache 的跨请求高效复用

GAITC 2025:曙光AI基础设施全栈亮相

深入研究：shopee商品详情API接口Python攻略

shopee商品详情接口 shopee数据采集 shopee数据接口

HarmonyOS运动开发：如何用mpchart绘制运动配速图表

王二蛋和他的张大花

AI Agent驱动下的金融智能化：技术实现与行业影响

三天吃透Java并发面试八股文

编程程序员 java面试 Java面试题

Go 语言中的 Hot Path 优化：高性能优化实践指南

Go 高并发高性能优化

吉他初学者如何自学吉他？Guitar Pro如何辅助新手掌握复杂的吉他弹奏技巧

阿拉灯神丁

吉他学习编曲软件 Guitar Pro8 Mac乐谱制作软件乐谱软件

ArkUI-X与Android桥接通信之方法回调

"不是都合规了吗？怎么还翻车？

AI智能体终结运维"狼来了"

AI 安全运维

视觉效果和图像处理 Boris FX Silhouette 2025新功能详解

一场 6 点半开启的慢跑，是我们对八周年最真实的记录

数据库 tdengine 时序数据库

矢量绘图设计CDR 2025 永久许可证【Mac/win】

【每天学点‘音视频’】GOP-关键帧间隔

小曾同学.com

ffmpeg 实时音视频 GOP B帧

嵌入式STM32-PID位置环和速度环

stm32 PID 位置环速度环

我离职了，聊聊职场、大学、友情和爱情：人不能两次踏入同一条河流，生命只能倒着被理解，但却必须正着被经历

深入浅出：微店商品列表API接口Python攻略

微店数据接口微店API 微店商品列表接口