写点什么

Uber 大数据程序库 Hudi,正式进入 Apache 软件基金会

  • 2019-04-23
  • 本文字数:902 字

    阅读完需:约 3 分钟

Uber大数据程序库Hudi,正式进入Apache软件基金会

Hudi 于 2016 年以“Hoodie”为代号开发,旨在解决 Uber 大数据生态系统中需要插入更新及增量消费原语的摄取管道和 ETL 管道的低效问题。2019 年 1 月,Uber 向 Apache 孵化器提交了 Hudi,从而进一步推进了 Uber 的开源承诺,保证 Apache Hudi 可以在 Apache 软件基金会的开放治理和指导下长期可持续性地增长。


快速处理和访问 PB 级数据的能力对于整个数据生态系统的规模化增长至关重要。尽管如此,这种对规模和速度的综合需求并不总是可以自然地适配现有的批处理和流系统架构。


Hudi 于 2016 年以“Hoodie”为代号开发,旨在解决 Uber大数据生态系统中需要插入更新和增量消费原语的摄取管道和 ETL 管道的低效问题。为了与更广泛的大数据社区分享这些好处,Uber 在 2017 年开源了 Hudi。


2019 年 1 月,我们向Apache孵化器提交了Hudi,从而进一步推进了我们的开源承诺,保证 Apache Hudi 可以在 Apache 软件基金会的开放治理和指导下长期可持续性地增长。


Hudi 联合创始人 Vinoth Chandar 说:“考虑到 Uber 使用了这么多优秀的 Apache 项目,我们相信 Apache 社区驱动的开源开发方式将使我们能够与不同的贡献者合作,发展 Apache Hudi。我们期待与 Apache 软件基金会合作,实现最佳实践,并为项目带来新的想法。”


随着时间的推移,在大数据开源社区的帮助下,Hudi 已经发展成为一个通用的大数据存储系统,使得以下特性成为可能:


  • 摄取和查询引擎之间的快照隔离,包括 Apache Hive、Presto 和 Apache Spark;

  • 支持回滚和存储点,可以恢复数据集;

  • 自动管理文件大小和布局,以优化查询性能和目录清单;

  • 准实时摄取,为查询提供最新数据;

  • 实时数据和列数据的异步压缩。


Hudi 目前管理着 4000 多个表,这些表在 Uber 上存储了几 PB 的数据,同时将 Apache Hadoop 仓库访问延迟从几个小时降低到 30 分钟以下,这证明了它的可伸缩性。Hudi 还为数百个增量数据管道提供了支撑,与该公司以前使用的解决方案相比,它的成本更低,效率更高。


展望未来,该项目将与 Apache 软件基金会合作。请查看Apache Hudi项目页面以获得技术文档和社区参与指南。


查看英文原文:Uber Submits Hudi, an Open Source Big Data Library, to The Apache Software Foundation


2019-04-23 15:505061
用户头像

发布了 780 篇内容, 共 534.9 次阅读, 收获喜欢 1578 次。

关注

评论

发布
暂无评论
发现更多内容

京东JD商品详情API返回值指南

技术冰糖葫芦

API 编排 API boy API 策略 pinduoduo API

即时通讯技术文集(第37期):IM代码入门实践(Part1) [共16篇]

JackJiang

即时通讯;IM;网络编程

你的拖延,该不会是“约拿情结”吧?程序员的5个时间管理技巧

养心进行时

时间管理 拖延症

迭代的难题:敏捷团队每次都有未完成的工作,如何破解?

敏捷开发

项目管理 Scrum 敏捷开发 迭代 冲刺

“芯”心相“蜥” 共筑未来!龙蜥社区走进兆芯 MeetUp 圆满结束

OpenAnolis小助手

开源 操作系统 Meetup 龙蜥社区

AIGC时代IT人的迷茫有解(1):从“商业画布”到“个人画布”

养心进行时

职业规划 商业画布 个人画布

高情商程序员是如何沟通需求的?

养心进行时

需求 需求排序 需求变更 需求澄清 需求评审

竞品调研- 19条小技巧快速收集竞品信息

养心进行时

竞品分析 竞品调研

高情商程序员:5种类型的bug沟通有诀窍!

养心进行时

bug bug修复 bug管理 bug报告

GreatSQL的sp中添加新的sp_instr引入的bug解析

GreatSQL

源码分析 greatsql

Xpath高阶定位技巧,轻松玩转App测试元素定位!

霍格沃兹测试开发学社

火山引擎A/B测试平台的实验管理重构与DDD实践

字节跳动数据平台

大数据 AB testing实战 ab测试 A/B测试

开放原子&龙蜥社区 2 大学习赛首批获奖者名单公布

OpenAnolis小助手

开源 操作系统 龙蜥社区 人人都可以参与开源

HTTP Multipart 概述:一步步理解复杂数据传输

Apifox

前端 Web 后端 HTTP API

AIGC时代IT人的迷茫有解(2):从“产品规划十步法”到“职业规划十步法”

养心进行时

职业规划 产品规划

AIGC时代IT人的迷茫有解(3):从“用户画像”到“个人职业画像”

养心进行时

职业规划 用户画像 #职业发展

掌握高阶定位技巧:Xpath神功解析!

测试人

软件测试 自动化测试 测试开发 xpath

数据库、OS内核安全等精彩继续!龙蜥大讲堂 5 月直播预告来袭

OpenAnolis小助手

开源 操作系统 龙蜥大讲堂 龙蜥i社区

需求做不完?7种“问句”用了没?

养心进行时

需求 需求排序 需求变更 需求澄清 需求评审

Uber大数据程序库Hudi,正式进入Apache软件基金会_开源_Brian Hsieh_InfoQ精选文章