【AICon】探索八个行业创新案例,教你在教育、金融、医疗、法律等领域实践大模型技术! >>> 了解详情
写点什么

Kylin on AWS 云上运维实践|揭秘 OLX Group 全球数据基础架构

  • 2021-04-07
  • 本文字数:1909 字

    阅读完需:约 6 分钟

Kylin on AWS 云上运维实践|揭秘 OLX Group 全球数据基础架构

作为首个中国人主导贡献到 Apache 基金会的顶级项目,Apache Kylin 开源社区在国内外一直都保持着较高活力。在 2019 年 10 月,Apache Kylin 就同来自欧洲的大型跨境电商 OLX Group 在德国柏林一起举办过 Kylin Meetup,并受到众多好评。


在之前举办的 Apache Kylin 5 周年庆典中,OLX Group 荣获最佳应用奖,我们也再次邀请到高级数据工程师 Mateusz Jerzyk 作为代表分享了 Apache Kylin 在 OLX Group 全球数据基础架构中发挥的作用。


以下为会议实录翻译。


大家好,今天很开心可以与大家分享,我们是如何在 OLX Group 应用 Apache Kylin 的。


首先我会简单介绍 OLX Group,之后会向大家展示 Kylin 在我们的全球数据服务基础架构中的作用,最后会分享一些我们的用例。同时,我也会重点介绍我们在使用 Kylin,构建 Cube 时遇到的一些困难以及我们的收获。


OLX Group 简介


OLX Group 是全球互联网巨头 Prosus 公司的一部分。Prosus 是一个全球互联网集团,也是全球最大的技术投资者之一。Prosus 投资了腾讯,Delivery Hero,Udemy 等公司。



OLX Group 为购买,出售和交换产品和服务提供了领先的平台,在全球拥有 20 多个品牌。目前业务覆盖 30 多个国家/地区,在全球设有 35 个以上办事处。OLX 有 7500 多名员工,其中有上千名在产品与技术部门工作。每月都会有 3.5 亿人通过我们的平台购买,出售或交换商品或服务,平均每天用户访问平台会产生超过 40 亿个事件。



在 OLX Group,我们相信数据的力量。我们每天收集的数据都会影响我们的业务决策。我们会构建各种仪表板,机器学习模型等来辅助决策。

Kylin 在数据架构中的作用

接下来我来介绍一下 Kylin 在我们的数据基础架构中的作用。先介绍一下 OLX 的数据流。首先,我们会使用一些内部工具从产品数据库和设备中收集数据。所有数据都存储在数据湖中,作为我们的数据存储区。


在这里需要特别提及的是,我们已经建立了一个数据湖,但只有公司内部的少数人才能访问它,也是完全符合数据保护法案的。



在收集和治理数据之后,OLX 中的每个团队都可以向专用的精简数据存储(称为存储库)请求一些数据。这样,我们就可以完全控制我们数据的使用。


最后,我们会使用 Odyn 的数据处理运营数据中心的功能。用户可以计划自己的 ETL 和/或其他工作负载,并将结果存储回存储库中。这些处理好的数据已准备好接入用作加速分析查询的加速层的 Apache Kylin。



现在我们来关注 Kylin 在 OLX Group 数据架构中的作用。大家可以看到我们的 Apache Kylin 平台设置的流程。 我们使用 Kubernetes 来部署 Apache Kylin,Spark 和 Hive。 值得一提的是,为了将 Apache Hive 在 Kubernetes 上用起来,OLX Group 会将 Apache Spark 作为引擎的一部分。同时,我们使用 Amazon EMR 将 Amazon Kylin 的 HBase 集群与 Hadoop HDFS 托管在一起,并且将数据备份到 S3 中。该数据架构还拥有一个自动还原过程,当发现部署中发生崩溃时,该过程可以随时从 S3 恢复所有环境。OLX Group 将 OKTA 用作用户登录的 SAML 联邦身份认证,也把 OpenLDAP 用于用户授权。我们会将 Tomcat 会话存储在 Memcached 中,来将部署的停机时间降至零。该数据架构使用 Amazon Aurora 存储 Hive 元存储数据。


我们拥有和 OLX 其余数据基础架构完全集成的 Apache Kylin。分析师和非技术用户可以使用一致、全面监控、稳定且可扩展的跨团队环境,轻松顺畅地构建多维数据集并使用 Apache Kylin。我们还为 Apache Kylin 提供了量身定制的每日 HBase 备份和自动还原功能。

Kylin 实践分享


接下来我来分享一些案例和使用 Kylin 时遇到的一些困难。如前所述,我们在多个地方使用数据。 我们遇到的第一个困难就是为我们的全局报表构建一组仪表板。 我们的目标是使它们能够以亚秒级的延迟快速查询,而且还具有足够的灵活性以计算给定过滤条件下的非累加度量。同时也能与 Tableau(我们的主要可视化工具)配合使用。


另一个具体问题是建立自助服务分析平台。 与仪表板不同,在自助服务工具中,我们无法真正预测用户将如何准确使用度量和维度,这意味着我们不知道 Cube 应当提供的查询。因此,Cube 的目标是更加灵活。在这种情况下,我们可以接受边缘情况下较慢的响应时间。


最后,我想向大家分享一些数字。到 2020 年 11 月,我们在生产中使用了 39 个 Cube,支持 Tableau 用,目前有超过 300 位分析师在使用,执行了将近 40 万次分析查询,返回了超过 5,000 亿行的数据,并扫描了 500 TB 以上的数据。


作者介绍


Mateusz Jerzyk,OLX Group 数据基础架构团队高级数据工程师。2019 年曾协助举办柏林站 Apache Kylin Meetup。


本文转载自公众号 ApacheKylin(ID:apachekylin)。


原文链接


Kylin on AWS 云上运维实践|揭秘 OLX Group 全球数据基础架构

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2021-04-07 10:001521

评论

发布
暂无评论
发现更多内容

深圳程序员自谋生路的2020

鸠摩智首席音效师

开源 程序员 在线教育 创业者 深圳

搞定万亿级MySQL海量存储的索引与分表设计实战

Java架构师迁哥

阿里P8亲测能实战落地的SpringCloud开发笔记已开源

996小迁

Java 程序员 架构 面试 SpringCloud

从根上理解高性能、高并发(六):通俗易懂,高性能服务器到底是如何实现的

JackJiang

网络编程 高并发 高性能 即时通讯

第二周-作业-胡赵凯

hisun胡

产品经理 产品经理训练营

应对新冠病毒传播-粤政协委员建议构建公共卫生区块链平台

CECBC

区块链 公共卫生

Vue.js笔试题解决业务中常见问题

我是哪吒

程序员 面试 Vue 大前端

懂点EXCEL就行!教你利用Python做数据筛选(上)

智分析

Python Excel 数据清洗

【面试必备】Swift 面试题及其答案

ios swift

红河州加速区块链等新技术与实体经济的深度融合

CECBC

数字经济

产品经理训练营第 0 期 第二次作业

孙行者

第0期 产品经理训练营

Postgreshub中文资源网介绍

PostgreSQLChina

数据库 postgresql 开源 软件 开源社区

高承实:区块链是一个技术结构组织 而不是技术

CECBC

大数据

七大步骤、备战60天,4面拿下字节跳动offer:时间规划+知识点+画脑图+做笔记+看书+看视频+刷题刷题

Java 程序员 面试

惊呆了!某东Java大咖的MySQL笔记手册流传出来了,胜过看10本书

Java架构之路

Java 程序员 架构 面试 编程语言

图解 | 原来这就是TCP

程序员 网络协议 架构师

测试一下

TJJ

《程序员修炼之道》- 务实的哲学(1)

石云升

程序员 28天写作

连肝7个晚上,总结了计算机网络的知识点!(共66条)

我是哪吒

程序员 面试 浏览器 计算机网络 HTTP

常见运维监控系统的技术选型

OpsMind

运维 监控系统

品牌升级后,TBase更名为TDSQL和TDSQL-A,CynosDB更名为TDSQL-C

数据君

LeetCode题解:389. 找不同,ASCII码求和,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

极客时间产品训练营第二周总结

云随心

产品 总结 产品训练营

用APICloud开发iOS App Clip(苹果小程序)详细教程

YonBuilder低代码开发平台

小程序云开发 大前端 移动开发 APP开发

极客时间产品训练营第二周作业

云随心

产品 第二周作业 产品训练营

腾讯云数据库品牌升级,大咖解读数据库三大变化

数据君

挑战前端知识点HTTP/ECMAScript

我是哪吒

大前端 HTTP ES6

产品思维和产品意识

ALone

目标岗位差异化对比

Geek_6a8931

十年磨一剑,腾讯云数据库品牌重磅升级, “企业级分布式数据库TDSQL”来了!

数据君

Flink SQL 在字节跳动的优化与实践

Apache Flink

flink

Kylin on AWS 云上运维实践|揭秘 OLX Group 全球数据基础架构_开源_apachekylin_InfoQ精选文章