基于 Hive 的离线数仓往往是企业大数据生产系统中不可缺少的一环。Hive 数仓有很高的成熟度和稳定性,但由于它是离线的,延时很大。在一些对延时要求比较高的场景,需要另外搭建基于 Flink 的实时数仓,将链路延时降低到秒级。但是一套离线数仓加一套实时数仓的架构会带来超过两倍的资源消耗,甚至 导致重复 开发。
想要搭建流式链路就必须得抛弃现有的 Hive 数仓吗?并不是, 借助 Flink 可以 实现已有 的 H ive 离线数仓准实时 化 。 本次分享将 分析当前离线数仓实时化的难点,详解 Flink 如何解决 Hive 流批一体准实时数仓的难题,实现更高效、合理的资源配置。
直播大纲
- 离线数仓实时化的难点
- Lambda 架构,成本较高
- 使用第三方工具和调度工具的难点
- 数据湖,新技术尝鲜不容易
- Flink on Hive 准实时方案
- 准实时数据摄入,Flink 如何做到准实时数据落地、精确语义
- 准实时消费,Flink 如何用流的方式消费 Hive 表
- 维表关联,Flink 以流的方式关联维表
- 基于 Flink 构建 Hive 流批一体准实时数仓应用实践
- 案例需求
- 基于 Flink 的实时数据摄入案例
- 基于 Flink 搭建实时 Pipeline 案例
听众受益
- 了解流批一体数仓的构建和难点
- 了解 Hive 实时化的思路和发展
- 了解 Flink 相关技术思路
适合人群
正在探索和建设 流批一体 Hive 实时化数仓的同学。
讲师介绍
李劲松,花名之信,阿里巴巴技术专家,Apache Flink Committer。2014 年起专注于阿里内部 Galaxy 流计算框架;2017 年起开始 Flink 研发,主要专注于 Batch 计算、数据结构与类型。
评论 (5 条评论)