2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

Uber 大数据程序库 Hudi,正式进入 Apache 软件基金会

  • 2019-04-23
  • 本文字数:902 字

    阅读完需:约 3 分钟

Uber大数据程序库Hudi,正式进入Apache软件基金会

Hudi 于 2016 年以“Hoodie”为代号开发,旨在解决 Uber 大数据生态系统中需要插入更新及增量消费原语的摄取管道和 ETL 管道的低效问题。2019 年 1 月,Uber 向 Apache 孵化器提交了 Hudi,从而进一步推进了 Uber 的开源承诺,保证 Apache Hudi 可以在 Apache 软件基金会的开放治理和指导下长期可持续性地增长。


快速处理和访问 PB 级数据的能力对于整个数据生态系统的规模化增长至关重要。尽管如此,这种对规模和速度的综合需求并不总是可以自然地适配现有的批处理和流系统架构。


Hudi 于 2016 年以“Hoodie”为代号开发,旨在解决 Uber大数据生态系统中需要插入更新和增量消费原语的摄取管道和 ETL 管道的低效问题。为了与更广泛的大数据社区分享这些好处,Uber 在 2017 年开源了 Hudi。


2019 年 1 月,我们向Apache孵化器提交了Hudi,从而进一步推进了我们的开源承诺,保证 Apache Hudi 可以在 Apache 软件基金会的开放治理和指导下长期可持续性地增长。


Hudi 联合创始人 Vinoth Chandar 说:“考虑到 Uber 使用了这么多优秀的 Apache 项目,我们相信 Apache 社区驱动的开源开发方式将使我们能够与不同的贡献者合作,发展 Apache Hudi。我们期待与 Apache 软件基金会合作,实现最佳实践,并为项目带来新的想法。”


随着时间的推移,在大数据开源社区的帮助下,Hudi 已经发展成为一个通用的大数据存储系统,使得以下特性成为可能:


  • 摄取和查询引擎之间的快照隔离,包括 Apache Hive、Presto 和 Apache Spark;

  • 支持回滚和存储点,可以恢复数据集;

  • 自动管理文件大小和布局,以优化查询性能和目录清单;

  • 准实时摄取,为查询提供最新数据;

  • 实时数据和列数据的异步压缩。


Hudi 目前管理着 4000 多个表,这些表在 Uber 上存储了几 PB 的数据,同时将 Apache Hadoop 仓库访问延迟从几个小时降低到 30 分钟以下,这证明了它的可伸缩性。Hudi 还为数百个增量数据管道提供了支撑,与该公司以前使用的解决方案相比,它的成本更低,效率更高。


展望未来,该项目将与 Apache 软件基金会合作。请查看Apache Hudi项目页面以获得技术文档和社区参与指南。


查看英文原文:Uber Submits Hudi, an Open Source Big Data Library, to The Apache Software Foundation


2019-04-23 15:505217
用户头像

发布了 881 篇内容, 共 621.5 次阅读, 收获喜欢 1618 次。

关注

评论

发布
暂无评论
发现更多内容

架构师训练营第 1 期 - 第 10 周 - 命题作业

wgl

Week_11 总结

golangboy

极客大学架构师训练营

架构师训练营 11 周作业

郎哲158

架构师训练营 2 期 Week07 总结

话题讨论 | 遇到的印象最深的开源项目

soolaugust

话题讨论

话题讨论 | 2020就要结束了,你最想对自己说的是什么

soolaugust

话题讨论

CSS flex 排版与动画 — 重学 CSS

三钻

CSS 大前端 排版 Flex

第 07 周 性能压测(响应时间和吞吐量变化)

Airship

极客大学架构师训练营

与前端训练营的日子 --Week06

SamGo

学习

架构师训练营第 11 周学习笔记

郎哲158

【架构师训练营 1 期】第十一周作业

诺乐

话题讨论 | 未来十年,你认为哪门语言将要脱颖而出

soolaugust

话题讨论

Spring 源码学习 08:register 注册配置类

程序员小航

Java spring 源码 源码阅读

KMP —— 字符串分析算法

三钻

算法 大前端 KMP

架构训练营第七周作业

一期一会

性能测试 Go 语言

第11周作业

paul

第十一周 作业

熊桂平

极客大学架构师训练营

腾讯iOA与绿盟、天融信完成产品互认证,助力零信任市场协同发展

week7-性能优化

未来已来

8张图带你了解大型应用架构演进历程

Silently9527

架构 互联网架构设计

腾讯牵头零信任产业标准工作组正式发布零信任联盟标准

【架构师训练营 1 期】第十一周学习总结

诺乐

话题讨论 | 2021要来了,你对未来的一年有什么期待

soolaugust

话题讨论

Week_11 作业

golangboy

极客大学架构师训练营

训练营 - 第11周

袭望

第十一周 学习总结

熊桂平

极客大学架构师训练营

week02

ルンルン

密码学,心底的凉暖

X.F

密码学

从一次不佳的小组讨论展开

sherlockq

week7-作业二:根据当周学习情况,完成一篇学习总结

未来已来

ShardingSphere RAW JDBC 分布式事务 Narayana XA 代码示例

Java 数据库 分布式事务 ShardingSphere

Uber大数据程序库Hudi,正式进入Apache软件基金会_开源_Brian Hsieh_InfoQ精选文章