20 个大数据必知领域之「Hudi」

发布于:2020 年 5 月 28 日 15:10

20个大数据必知领域之「Hudi」

20个大数据必知领域之「Hudi」

Apache Hudi 是由 Uber 开源的在分布式文件系统上提供对大型分析数据集的摄取、管理以及查询的数据湖框架。2019 年 1 月加入 Apache 孵化器进行孵化,加入孵化器大半年,发布第一个 Apache 版本后就快速被 AWS EMR 团队集成进 EMR 5.28.0 发布版,它也是 Amazon EMR 集成的开源项目里唯一一个还处于孵化阶段的项目。Hudi 在 Uber 从 2016 年开始研发到 2017 年上线生产环境,已构建远超 100 PB 的数据湖、单表 1000 个 Pipeline、每天处理 100TB 的数据规模。

一线实践案例

深度对比 Delta、Iceberg 和 Hudi 三大开源数据湖方案

会议演讲推荐

如何基于 Apache Hudi 构建企业级数据湖

阅读数:5 发布于:2020 年 5 月 28 日 15:10

评论

发布
暂无评论