NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

Uber 大数据程序库 Hudi,正式进入 Apache 软件基金会

  • 2019-04-23
  • 本文字数:902 字

    阅读完需:约 3 分钟

Uber大数据程序库Hudi,正式进入Apache软件基金会

Hudi 于 2016 年以“Hoodie”为代号开发,旨在解决 Uber 大数据生态系统中需要插入更新及增量消费原语的摄取管道和 ETL 管道的低效问题。2019 年 1 月,Uber 向 Apache 孵化器提交了 Hudi,从而进一步推进了 Uber 的开源承诺,保证 Apache Hudi 可以在 Apache 软件基金会的开放治理和指导下长期可持续性地增长。


快速处理和访问 PB 级数据的能力对于整个数据生态系统的规模化增长至关重要。尽管如此,这种对规模和速度的综合需求并不总是可以自然地适配现有的批处理和流系统架构。


Hudi 于 2016 年以“Hoodie”为代号开发,旨在解决 Uber大数据生态系统中需要插入更新和增量消费原语的摄取管道和 ETL 管道的低效问题。为了与更广泛的大数据社区分享这些好处,Uber 在 2017 年开源了 Hudi。


2019 年 1 月,我们向Apache孵化器提交了Hudi,从而进一步推进了我们的开源承诺,保证 Apache Hudi 可以在 Apache 软件基金会的开放治理和指导下长期可持续性地增长。


Hudi 联合创始人 Vinoth Chandar 说:“考虑到 Uber 使用了这么多优秀的 Apache 项目,我们相信 Apache 社区驱动的开源开发方式将使我们能够与不同的贡献者合作,发展 Apache Hudi。我们期待与 Apache 软件基金会合作,实现最佳实践,并为项目带来新的想法。”


随着时间的推移,在大数据开源社区的帮助下,Hudi 已经发展成为一个通用的大数据存储系统,使得以下特性成为可能:


  • 摄取和查询引擎之间的快照隔离,包括 Apache Hive、Presto 和 Apache Spark;

  • 支持回滚和存储点,可以恢复数据集;

  • 自动管理文件大小和布局,以优化查询性能和目录清单;

  • 准实时摄取,为查询提供最新数据;

  • 实时数据和列数据的异步压缩。


Hudi 目前管理着 4000 多个表,这些表在 Uber 上存储了几 PB 的数据,同时将 Apache Hadoop 仓库访问延迟从几个小时降低到 30 分钟以下,这证明了它的可伸缩性。Hudi 还为数百个增量数据管道提供了支撑,与该公司以前使用的解决方案相比,它的成本更低,效率更高。


展望未来,该项目将与 Apache 软件基金会合作。请查看Apache Hudi项目页面以获得技术文档和社区参与指南。


查看英文原文:Uber Submits Hudi, an Open Source Big Data Library, to The Apache Software Foundation


2019-04-23 15:504787
用户头像

发布了 693 篇内容, 共 400.8 次阅读, 收获喜欢 1500 次。

关注

评论

发布
暂无评论
发现更多内容

送给正在迷茫的你!极其重要

欢喜学安卓

android 程序员 面试 移动开发

2021 年第 26 周 ARTS 打卡

Bryan

redis 网络 ARTS 打卡计划 归并排序 epoll

碳中和的未来版图里,区块链如何“往上走”

CECBC

建立区块链证据采信新规则

CECBC

架构设计方法论

king

架构实战营 - 模块 7- 作业

泄矢的呼啦圈

架构实战营

1.4如何做好架构设计

Lemon

Go 并发编程-共享变量

Rayjun

Go 语言

Protobuf与POJO的相互转化 - 通过Json

DoneSpeak

json protobuf serialization

模块7作业

杨彬

#架构实战营

为easyexcel设置TimeZone

DoneSpeak

Excel Apache POI

架构训练营模块七作业

Geek_e0c25c

架构实战营

如何做好架构设计?

king

快手处置多个违规账号:自媒体行业需要净化和规范

石头IT视角

业务架构模块 7 作业

冬天的树

Java 工具箱 | 图片-Base64 互转

DoneSpeak

我用一个例子疏通“路由器漏洞&复现”【建议收藏!!】

网络安全学海

运维 网络安全 信息安全 漏洞分析 代码复现

推荐系统的UI交互与视觉展示(二十七)

数据与智能

人工智能 算法 推荐系统

1.3面向复杂度的架构设计

Lemon

架构设计 架构设计原则

王者荣耀商城异地多活架构设计

Vincent

架构训练营

Hadoop知识点总结

五分钟学大数据

hadoop 7月日更

CabloyJS 基于 EggJS 实现的模块编译与发布

node.js 全栈

Spring Security认证流程

DoneSpeak

spring security springsecurity

Spring Event初步讲解

DoneSpeak

spring

区块链到底是什么?解读区块链的4大核心组件

CECBC

Protobuf与Json的相互转化

DoneSpeak

json protobuf serialization

SpringBoot解决CORS问题

DoneSpeak

springboot

LeetCode | 13. 罗马数字转整数

DoneSpeak

LeetCode algorithm

架构训练营模块1作业

慕溶枫

#架构实战营

模块7作业-王者荣耀商城异地多活架构设计

En wei

架构实战营

实现自己的Protobuf Any

DoneSpeak

protobuf

Uber大数据程序库Hudi,正式进入Apache软件基金会_开源_Brian Hsieh_InfoQ精选文章