写点什么

Uber 大数据程序库 Hudi,正式进入 Apache 软件基金会

2019 年 4 月 23 日

Uber大数据程序库Hudi,正式进入Apache软件基金会

Hudi 于 2016 年以“Hoodie”为代号开发,旨在解决 Uber 大数据生态系统中需要插入更新及增量消费原语的摄取管道和 ETL 管道的低效问题。2019 年 1 月,Uber 向 Apache 孵化器提交了 Hudi,从而进一步推进了 Uber 的开源承诺,保证 Apache Hudi 可以在 Apache 软件基金会的开放治理和指导下长期可持续性地增长。


快速处理和访问 PB 级数据的能力对于整个数据生态系统的规模化增长至关重要。尽管如此,这种对规模和速度的综合需求并不总是可以自然地适配现有的批处理和流系统架构。


Hudi 于 2016 年以“Hoodie”为代号开发,旨在解决 Uber大数据生态系统中需要插入更新和增量消费原语的摄取管道和 ETL 管道的低效问题。为了与更广泛的大数据社区分享这些好处,Uber 在 2017 年开源了 Hudi。


2019 年 1 月,我们向Apache孵化器提交了Hudi,从而进一步推进了我们的开源承诺,保证 Apache Hudi 可以在 Apache 软件基金会的开放治理和指导下长期可持续性地增长。


Hudi 联合创始人 Vinoth Chandar 说:“考虑到 Uber 使用了这么多优秀的 Apache 项目,我们相信 Apache 社区驱动的开源开发方式将使我们能够与不同的贡献者合作,发展 Apache Hudi。我们期待与 Apache 软件基金会合作,实现最佳实践,并为项目带来新的想法。”


随着时间的推移,在大数据开源社区的帮助下,Hudi 已经发展成为一个通用的大数据存储系统,使得以下特性成为可能:


  • 摄取和查询引擎之间的快照隔离,包括 Apache Hive、Presto 和 Apache Spark;

  • 支持回滚和存储点,可以恢复数据集;

  • 自动管理文件大小和布局,以优化查询性能和目录清单;

  • 准实时摄取,为查询提供最新数据;

  • 实时数据和列数据的异步压缩。


Hudi 目前管理着 4000 多个表,这些表在 Uber 上存储了几 PB 的数据,同时将 Apache Hadoop 仓库访问延迟从几个小时降低到 30 分钟以下,这证明了它的可伸缩性。Hudi 还为数百个增量数据管道提供了支撑,与该公司以前使用的解决方案相比,它的成本更低,效率更高。


展望未来,该项目将与 Apache 软件基金会合作。请查看Apache Hudi项目页面以获得技术文档和社区参与指南。


查看英文原文:Uber Submits Hudi, an Open Source Big Data Library, to The Apache Software Foundation


2019 年 4 月 23 日 15:504296
用户头像

发布了 371 篇内容, 共 161.8 次阅读, 收获喜欢 839 次。

关注

评论

发布
暂无评论
发现更多内容

如何将区块链打造为城市底层基础设施

CECBC区块链专委会

区块链

技术人如何调研和选型第三方 SDK?全文干货

融云 RongCloud

android开发面试题,字节跳动Android三面凉凉,手慢无

欢喜学安卓

android 程序员 面试 移动开发

企业如何做数字化转型?想要资产状况及时把控,它的作用至关重要!

一只数据鲸鱼

数字化 数据可视化 资产管理

26天吃透算法笔记,面试字节,面试官朝我比了个“ok”

比伯

Java 编程 架构 算法 技术宅

最新面经出炉:双非一本学历裸辞奋战4个月,从外包跳进字节,给到29k*14薪!

程序员小毕

Java spring 程序员 架构 面试

回归主流:区块链新大门的“密钥”

CECBC区块链专委会

区块链

极智网络告警关联规则挖掘

鲸品堂

方法论 解决方案

腾讯技术官编写的594页MySQL优化手册,竟意外冲上GitHub调优热榜

周老师

Java 编程 程序员 架构 面试

阿里高级架构师纯手打832页Java全栈知识点笔记,吃透后成功七面上岸滴滴!

Java架构追梦

Java 阿里巴巴 架构 面试 成长笔记

交易所跟单软件搭建,合约跟单系统开发

13823153121

面试官:请说说什么是BFC?大白话讲清楚

蛙人

CSS 前端

“区块链+电子商务”,电商能否再创辉煌?

电微13828808271

一文读懂容器存储接口 CSI

阿里巴巴云原生

容器 云原生 k8s 存储 调度

积极研发区块链技术落地应用业务 这家A股上市企业试水云算力挖矿

CECBC区块链专委会

区块链

Hadoop的发展及其架构

五分钟学大数据

hadoop 4月日更

程序员去大公司面试,我的头条面试经历分享,搞懂这些直接来阿里入职

欢喜学安卓

android 程序员 面试 移动开发

EGG Network阿凡提 公链EFTalk全球首创POTP二叉交叉共识机制

币圈那点事

大数据前置知识-服务器及磁盘

大数据技术指南

大数据 4月日更

Redis单线程已经很快,为何6.0要引入多线程?有啥优势?

Java架构师迁哥

聪明人的训练(十二)

Changing Lin

4月日更

干货来袭!阿里技术官甩出的内部首推分布式系统开发笔记太顶了

Java王路飞

Java 程序员 架构 面试 分布式

Adobe国际认证更新后,引爆3个问题,Adobe粉丝也不淡定了!

Adobe国际认证

Adobe国际认证,Photoshop中了解图层基本知识

Adobe国际认证

区块链电子政务——不动产综合服务平台

电微13828808271

SpringBoot Admin2.0 集成 Java 诊断神器 Arthas 实践

阿里巴巴云原生

Java 运维 云原生 中间件 Arthas

重点人员管控系统开发,公安重点人口预警动态轨迹平台搭建

WX13823153201

攻击区块链网络的都有哪些方式方法

CECBC区块链专委会

区块链

用 JavaScript 实现三次贝塞尔动画库 - 前端组件化

三钻

JavaScript 动画 组件化 前端进阶

爆肝!华为安全专家连夜整理出全套网络安全学习书籍(小白必看)

Machine Gun

网络安全 信息安全 就业 WEB安全 行业趋势

思维导图学《Java性能权威指南》

Yano

Java 性能 思维导图

技术为帆,纵横四海- Lazada技术东南亚探索和成长之旅

技术为帆,纵横四海- Lazada技术东南亚探索和成长之旅

Uber大数据程序库Hudi,正式进入Apache软件基金会-InfoQ