NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

Uber 大数据程序库 Hudi,正式进入 Apache 软件基金会

  • 2019-04-23
  • 本文字数:902 字

    阅读完需:约 3 分钟

Uber大数据程序库Hudi,正式进入Apache软件基金会

Hudi 于 2016 年以“Hoodie”为代号开发,旨在解决 Uber 大数据生态系统中需要插入更新及增量消费原语的摄取管道和 ETL 管道的低效问题。2019 年 1 月,Uber 向 Apache 孵化器提交了 Hudi,从而进一步推进了 Uber 的开源承诺,保证 Apache Hudi 可以在 Apache 软件基金会的开放治理和指导下长期可持续性地增长。


快速处理和访问 PB 级数据的能力对于整个数据生态系统的规模化增长至关重要。尽管如此,这种对规模和速度的综合需求并不总是可以自然地适配现有的批处理和流系统架构。


Hudi 于 2016 年以“Hoodie”为代号开发,旨在解决 Uber大数据生态系统中需要插入更新和增量消费原语的摄取管道和 ETL 管道的低效问题。为了与更广泛的大数据社区分享这些好处,Uber 在 2017 年开源了 Hudi。


2019 年 1 月,我们向Apache孵化器提交了Hudi,从而进一步推进了我们的开源承诺,保证 Apache Hudi 可以在 Apache 软件基金会的开放治理和指导下长期可持续性地增长。


Hudi 联合创始人 Vinoth Chandar 说:“考虑到 Uber 使用了这么多优秀的 Apache 项目,我们相信 Apache 社区驱动的开源开发方式将使我们能够与不同的贡献者合作,发展 Apache Hudi。我们期待与 Apache 软件基金会合作,实现最佳实践,并为项目带来新的想法。”


随着时间的推移,在大数据开源社区的帮助下,Hudi 已经发展成为一个通用的大数据存储系统,使得以下特性成为可能:


  • 摄取和查询引擎之间的快照隔离,包括 Apache Hive、Presto 和 Apache Spark;

  • 支持回滚和存储点,可以恢复数据集;

  • 自动管理文件大小和布局,以优化查询性能和目录清单;

  • 准实时摄取,为查询提供最新数据;

  • 实时数据和列数据的异步压缩。


Hudi 目前管理着 4000 多个表,这些表在 Uber 上存储了几 PB 的数据,同时将 Apache Hadoop 仓库访问延迟从几个小时降低到 30 分钟以下,这证明了它的可伸缩性。Hudi 还为数百个增量数据管道提供了支撑,与该公司以前使用的解决方案相比,它的成本更低,效率更高。


展望未来,该项目将与 Apache 软件基金会合作。请查看Apache Hudi项目页面以获得技术文档和社区参与指南。


查看英文原文:Uber Submits Hudi, an Open Source Big Data Library, to The Apache Software Foundation


2019-04-23 15:504785
用户头像

发布了 688 篇内容, 共 398.4 次阅读, 收获喜欢 1498 次。

关注

评论

发布
暂无评论
发现更多内容

详解Java方法句柄MethodHandle

Java 方法句柄

教你一招疯狂拿Offer!用微服务设计一个超大型分布式电商平台

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

Golang:并发操作中常见的读写锁

Regan Yue

读写锁 Go 语言 8月日更

难以置信!阿里新产微服务架构进阶笔记我粉了!理论实战齐飞

Java 编程 架构 面试 架构师

新书介绍 -- 《Redis核心原理与实践》

binecy

redis cluster 书籍 redis sentinel Redis Stream

架构实战营模块6作业

技术是伙伴

架构实战营

阿里P8整理的《百亿级并发系统设计》实战教程,实在是太香了

Java 架构 后端 高并发

04. 实用主义的人工智能

数据与智能

人工智能

关于我尝试抓包微信失败后想到的新方法居然和奥特曼有关~

4ye

Python TCP 爬虫 后端 8月日更

认认真真的聊聊"软"中断

编程 架构 后端 计算机

基于Netty,20分钟手撸一个RPC框架

码农参上

netty 8月日更

Vue进阶(八十二):updated 应用详解

No Silver Bullet

Vue 8月日更

模块六作业

king

系统对接阿里云短信接口(Java开发实践)

Python研究者

8月日更

☕【Java技术指南】「TestNG专题」单元测试框架之TestNG使用教程指南(下)

洛神灬殇

Java JUnit 8月日更 testNG

操作系统课程学习记录

春秋易简

操作系统

在线JSON转CSV,TSV工具

入门小站

工具

百度地图开发 - 在地图上检索数据 08

Andy阿辉

android Android 小菜鸟 Android端 8月日更

模块六作业

俊杰

架构实战营

清华毕业20年从业经验马士兵建议所有Java高工必看的高并发编程

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

WebAssembly影响未来WEB技术

devpoint

Unity webassembly 8月日更

Linux之file命令

入门小站

Linux

阿里二面:怎么解决MySQL死锁问题的?

Java MySQL 架构 面试 后端

故事篇:终于给老婆讲明白什么是logback了!

阿Q说代码

故事 实战 logback 8月日更

架构实战营 - 模块六作业

Julian Chu

架构实战营

架构实战营模块 6 作业指导

华仔

#架构实战营

业界良心啊!第五次更新的Spring Cloud Alibaba升级太多内容

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

Vue进阶(八十一):Vue+element UI 实现“回到顶部”按钮组件

No Silver Bullet

Vue 8月日更

架构实战营 - 模块六作业

李东旭

「架构实战营」

装修记

escray

生活记录 8月日更

架构实战营 - 模块六作业

思梦乐

Uber大数据程序库Hudi,正式进入Apache软件基金会_开源_Brian Hsieh_InfoQ精选文章