写点什么

Uber 大数据程序库 Hudi,正式进入 Apache 软件基金会

  • 2019-04-23
  • 本文字数:902 字

    阅读完需:约 3 分钟

Uber大数据程序库Hudi,正式进入Apache软件基金会

Hudi 于 2016 年以“Hoodie”为代号开发,旨在解决 Uber 大数据生态系统中需要插入更新及增量消费原语的摄取管道和 ETL 管道的低效问题。2019 年 1 月,Uber 向 Apache 孵化器提交了 Hudi,从而进一步推进了 Uber 的开源承诺,保证 Apache Hudi 可以在 Apache 软件基金会的开放治理和指导下长期可持续性地增长。


快速处理和访问 PB 级数据的能力对于整个数据生态系统的规模化增长至关重要。尽管如此,这种对规模和速度的综合需求并不总是可以自然地适配现有的批处理和流系统架构。


Hudi 于 2016 年以“Hoodie”为代号开发,旨在解决 Uber大数据生态系统中需要插入更新和增量消费原语的摄取管道和 ETL 管道的低效问题。为了与更广泛的大数据社区分享这些好处,Uber 在 2017 年开源了 Hudi。


2019 年 1 月,我们向Apache孵化器提交了Hudi,从而进一步推进了我们的开源承诺,保证 Apache Hudi 可以在 Apache 软件基金会的开放治理和指导下长期可持续性地增长。


Hudi 联合创始人 Vinoth Chandar 说:“考虑到 Uber 使用了这么多优秀的 Apache 项目,我们相信 Apache 社区驱动的开源开发方式将使我们能够与不同的贡献者合作,发展 Apache Hudi。我们期待与 Apache 软件基金会合作,实现最佳实践,并为项目带来新的想法。”


随着时间的推移,在大数据开源社区的帮助下,Hudi 已经发展成为一个通用的大数据存储系统,使得以下特性成为可能:


  • 摄取和查询引擎之间的快照隔离,包括 Apache Hive、Presto 和 Apache Spark;

  • 支持回滚和存储点,可以恢复数据集;

  • 自动管理文件大小和布局,以优化查询性能和目录清单;

  • 准实时摄取,为查询提供最新数据;

  • 实时数据和列数据的异步压缩。


Hudi 目前管理着 4000 多个表,这些表在 Uber 上存储了几 PB 的数据,同时将 Apache Hadoop 仓库访问延迟从几个小时降低到 30 分钟以下,这证明了它的可伸缩性。Hudi 还为数百个增量数据管道提供了支撑,与该公司以前使用的解决方案相比,它的成本更低,效率更高。


展望未来,该项目将与 Apache 软件基金会合作。请查看Apache Hudi项目页面以获得技术文档和社区参与指南。


查看英文原文:Uber Submits Hudi, an Open Source Big Data Library, to The Apache Software Foundation


2019-04-23 15:505245
用户头像

发布了 915 篇内容, 共 641.9 次阅读, 收获喜欢 1628 次。

关注

评论

发布
暂无评论
发现更多内容

温故知新 | mydumper & dumpling 知识点汇总

TiDB 社区干货传送门

Raft/Paxos类协议与分布式事务

TiDB 社区干货传送门

数据库架构设计

混沌工程在建信金科的应用实践

TiDB 社区干货传送门

实践案例 故障排查/诊断 TUG 话题探讨

TiDB 5.4 发版丨新功能解读

TiDB 社区干货传送门

TiDB 5.4 单机快速安装初体验

TiDB 社区干货传送门

管理与运维 版本测评

TiDB Binlog 支持 Oracle 目标库功能用户手册

TiDB 社区干货传送门

迁移

悲观锁模式下 TiDB 与其他数据库在 RC 及 RR 隔离级别的行为对比

TiDB 社区干货传送门

用 Gravity 实现 MongoDB 到 TiDB 的数据复制

TiDB 社区干货传送门

数据库调优之硬件

TiDB 社区干货传送门

性能调优

TiSpark 2.4.1(Spark 2.4.5)到TiSpark 2.5.0(Spark 3.0.X/3.1.X)迁移实践

TiDB 社区干货传送门

实践案例

DM 同步 modify column 语句到 TiDB 5.3 踩坑二:DDL 语句重放

TiDB 社区干货传送门

实践案例 故障排查/诊断

在CentOS7上进行TiDB/PD/TIKV编译分享

TiDB 社区干货传送门

实践案例 安装 & 部署

【备考指南】新版 PingCAP PCTP 认证考试

TiDB 社区干货传送门

TIKV、PD添加TLS总结

TiDB 社区干货传送门

实践案例

从单点到分布式的哲学启蒙

TiDB 社区干货传送门

数据库前沿趋势

dm-V1.0.5使用汇总

TiDB 社区干货传送门

管理与运维

【白皮书】TiDelta,一款简单易用的 TiDB 性能对比 Web 工具。

TiDB 社区干货传送门

TiDB统计信息原理简介与实践

TiDB 社区干货传送门

管理与运维

TiDB源码系列之沉浸式编译TiDB

TiDB 社区干货传送门

TiDB 源码解读

DM 同步 modify column 语句到 TiDB 5.3 踩坑一:数据乱码

TiDB 社区干货传送门

实践案例 故障排查/诊断

TiDB与众不同的优化器

TiDB 社区干货传送门

性能测评 应用适配

TiDB热点测试

TiDB 社区干货传送门

版本测评 性能测评

TiDB中快速恢复被Truncate 的表

TiDB 社区干货传送门

管理与运维

大事务的处理方式对比

TiDB 社区干货传送门

实践案例

TiDB 悲观事务模式和Mysql的表象区别

TiDB 社区干货传送门

DR Auto-Sync 搭建和计划内切换操作手册

TiDB 社区干货传送门

TPC-H 下 TiFlash 的扩展性测试报告 - v5.1.0

TiDB 社区干货传送门

版本测评 性能测评

Tidb为什么能做到国产第一

TiDB 社区干货传送门

性能测评 数据库架构设计 应用适配

TiEM初体验

TiDB 社区干货传送门

集群管理 管理与运维 6.x 实践

ticdc没报错,tso却不变的奇怪现象

TiDB 社区干货传送门

【专栏平台上线】来自社区的一份感谢信,致谢 137 位 TiDB 社区技术布道师

TiDB 社区干货传送门

Uber大数据程序库Hudi,正式进入Apache软件基金会_开源_Brian Hsieh_InfoQ精选文章