10 月 23 - 25 日,QCon 上海站即将召开,现在大会已开始正式报名,可以享受 8 折优惠 了解详情
写点什么

Uber 大数据程序库 Hudi,正式进入 Apache 软件基金会

  • 2019-04-23
  • 本文字数:902 字

    阅读完需:约 3 分钟

Uber大数据程序库Hudi,正式进入Apache软件基金会

Hudi 于 2016 年以“Hoodie”为代号开发,旨在解决 Uber 大数据生态系统中需要插入更新及增量消费原语的摄取管道和 ETL 管道的低效问题。2019 年 1 月,Uber 向 Apache 孵化器提交了 Hudi,从而进一步推进了 Uber 的开源承诺,保证 Apache Hudi 可以在 Apache 软件基金会的开放治理和指导下长期可持续性地增长。


快速处理和访问 PB 级数据的能力对于整个数据生态系统的规模化增长至关重要。尽管如此,这种对规模和速度的综合需求并不总是可以自然地适配现有的批处理和流系统架构。


Hudi 于 2016 年以“Hoodie”为代号开发,旨在解决 Uber大数据生态系统中需要插入更新和增量消费原语的摄取管道和 ETL 管道的低效问题。为了与更广泛的大数据社区分享这些好处,Uber 在 2017 年开源了 Hudi。


2019 年 1 月,我们向Apache孵化器提交了Hudi,从而进一步推进了我们的开源承诺,保证 Apache Hudi 可以在 Apache 软件基金会的开放治理和指导下长期可持续性地增长。


Hudi 联合创始人 Vinoth Chandar 说:“考虑到 Uber 使用了这么多优秀的 Apache 项目,我们相信 Apache 社区驱动的开源开发方式将使我们能够与不同的贡献者合作,发展 Apache Hudi。我们期待与 Apache 软件基金会合作,实现最佳实践,并为项目带来新的想法。”


随着时间的推移,在大数据开源社区的帮助下,Hudi 已经发展成为一个通用的大数据存储系统,使得以下特性成为可能:


  • 摄取和查询引擎之间的快照隔离,包括 Apache Hive、Presto 和 Apache Spark;

  • 支持回滚和存储点,可以恢复数据集;

  • 自动管理文件大小和布局,以优化查询性能和目录清单;

  • 准实时摄取,为查询提供最新数据;

  • 实时数据和列数据的异步压缩。


Hudi 目前管理着 4000 多个表,这些表在 Uber 上存储了几 PB 的数据,同时将 Apache Hadoop 仓库访问延迟从几个小时降低到 30 分钟以下,这证明了它的可伸缩性。Hudi 还为数百个增量数据管道提供了支撑,与该公司以前使用的解决方案相比,它的成本更低,效率更高。


展望未来,该项目将与 Apache 软件基金会合作。请查看Apache Hudi项目页面以获得技术文档和社区参与指南。


查看英文原文:Uber Submits Hudi, an Open Source Big Data Library, to The Apache Software Foundation


2019-04-23 15:505164
用户头像

发布了 832 篇内容, 共 580.1 次阅读, 收获喜欢 1597 次。

关注

评论

发布
暂无评论
发现更多内容

Coinbase上市,对加密市场将带来哪些影响?

CECBC

货币

中国数字人民币试点有序扩大至“10+1” 拜登政府正加强研究数字人民币计划

CECBC

数字货币

iceberg查询加速原理

聚变

腾讯大神为什么会对这份“redis深度笔记”如此爱不释手?

Java架构师迁哥

金融科技数据链的DNA

博睿数据

金融科技 博睿数据 数据链DNA

推荐25种自媒体运营必备工具 (建议收藏)

科技猫

工具 网站 分享 运营 自媒体

图查询语言的历史回顾短文

NebulaGraph

数据库 数据库设计 图数据库

勇夺桂冠!百度智能云获山东电力输电人工智能技术竞赛第一名

百度大脑

百度智能云

Java开发9年经验,三轮技术面+HR面试成功砍下阿里巴巴Offer!

Java架构追梦

Java 阿里巴巴 架构 面试

区块链技术重新定义 物联网的物与物之间的交易

CECBC

发展空间

聊聊十种常见的软件架构模式

架构精进之路

4月日更

Substrate 合约书之合约模型

Patract

智能合约 rust polkadot Patract Wasm

浅析“分布式锁”的实现方式丨C++后端开发丨底层原理

Linux服务器开发

redis zookeeper 分布式锁 Linux服务器开发 C++后端开发

汽车之家基于 Flink 的数据传输平台的设计与实践

Apache Flink

flink

云原生技术及可观测实践

滴滴云

2年进入苏宁,第5年入职阿里,专科学历的他是如何做到?

Java架构师迁哥

微服务转型系列2:微服务转型的三大误区,避坑指南

BoCloud博云

微服务

Java该怎么学?阿里大佬呕心沥血之作,Java全线成长宝典,从P5到P8一应俱全

Java架构师迁哥

云存储中不可不知的五个安全问题及应对措施

云计算

《彩食鲜 CTO 乔新亮:程序员如何从技术走向管理》(采访提纲)

这就是编程

融云 CTO 杨攀:技术人员如何创业?

Yano

函数计算助力语雀构建稳定且安全的业务架构

阿里巴巴中间件

文档 企业架构和云服务 业务架构

你管这破玩意叫哨兵?

Java 数据库 redis 程序员 架构

怎么拥有个人磁力

帅安技术

IP 个人磁力 KOL 思想 吸引力法则

交易所合约跟单软件搭建,火币合约跟单平台开发

【科创人】贝锐创始人陈宇晔:花生壳诞生自一次挫折,15年坚守有温度不作恶

科创人

Nacos 2.0 性能提升十倍,贡献者 80% 以上来自阿里之外

阿里巴巴云原生

微服务 开发者 云原生 dubbo 中间件

一个极简的冲突管理工具

石云升

28天写作 职场经验 管理经验 4月日更 冲突管理

函数计算助力高德地图平稳支撑亿级流量高峰

阿里巴巴中间件

重读《重构2》- 改变函数声明

顿晓

重构 4月日更

曾国藩:人生惟有常是第一美德

帅安技术

曾国藩 坚持 有常 天赋 成事心法

Uber大数据程序库Hudi,正式进入Apache软件基金会_开源_Brian Hsieh_InfoQ精选文章