Hudi于2016年以“Hoodie”为代号开发，旨在解决Uber大数据生态系统中需要插入更新及增量消费原语的摄取管道和ETL管道的低效问题。2019年1月，Uber向Apache孵化器提交了Hudi，从而进一步推进了Uber的开源承诺，保证Apache Hudi可以在Apache软件基金会的开放治理和指导下长期可持续性地增长。

快速处理和访问PB级数据的能力对于整个数据生态系统的规模化增长至关重要。尽管如此，这种对规模和速度的综合需求并不总是可以自然地适配现有的批处理和流系统架构。

Hudi于2016年以“Hoodie”为代号开发，旨在解决Uber大数据生态系统中需要插入更新和增量消费原语的摄取管道和ETL管道的低效问题。为了与更广泛的大数据社区分享这些好处，Uber在2017年开源了Hudi。

2019年1月，我们向Apache孵化器提交了Hudi，从而进一步推进了我们的开源承诺，保证Apache Hudi可以在Apache软件基金会的开放治理和指导下长期可持续性地增长。

Hudi联合创始人Vinoth Chandar说：“考虑到Uber使用了这么多优秀的Apache项目，我们相信Apache社区驱动的开源开发方式将使我们能够与不同的贡献者合作，发展Apache Hudi。我们期待与Apache软件基金会合作，实现最佳实践，并为项目带来新的想法。”

随着时间的推移，在大数据开源社区的帮助下，Hudi已经发展成为一个通用的大数据存储系统，使得以下特性成为可能：

摄取和查询引擎之间的快照隔离，包括Apache Hive、Presto和Apache Spark；
支持回滚和存储点，可以恢复数据集；
自动管理文件大小和布局，以优化查询性能和目录清单；
准实时摄取，为查询提供最新数据；
实时数据和列数据的异步压缩。

Hudi目前管理着4000多个表，这些表在Uber上存储了几PB的数据，同时将Apache Hadoop仓库访问延迟从几个小时降低到30分钟以下，这证明了它的可伸缩性。Hudi还为数百个增量数据管道提供了支撑，与该公司以前使用的解决方案相比，它的成本更低，效率更高。

展望未来，该项目将与Apache软件基金会合作。请查看Apache Hudi项目页面以获得技术文档和社区参与指南。

查看英文原文：Uber Submits Hudi, an Open Source Big Data Library, to The Apache Software Foundation

创作场景

Uber 大数据程序库 Hudi，正式进入 Apache 软件基金会