写点什么

Uber 大数据程序库 Hudi,正式进入 Apache 软件基金会

  • 2019-04-23
  • 本文字数:902 字

    阅读完需:约 3 分钟

Uber大数据程序库Hudi,正式进入Apache软件基金会

Hudi 于 2016 年以“Hoodie”为代号开发,旨在解决 Uber 大数据生态系统中需要插入更新及增量消费原语的摄取管道和 ETL 管道的低效问题。2019 年 1 月,Uber 向 Apache 孵化器提交了 Hudi,从而进一步推进了 Uber 的开源承诺,保证 Apache Hudi 可以在 Apache 软件基金会的开放治理和指导下长期可持续性地增长。


快速处理和访问 PB 级数据的能力对于整个数据生态系统的规模化增长至关重要。尽管如此,这种对规模和速度的综合需求并不总是可以自然地适配现有的批处理和流系统架构。


Hudi 于 2016 年以“Hoodie”为代号开发,旨在解决 Uber大数据生态系统中需要插入更新和增量消费原语的摄取管道和 ETL 管道的低效问题。为了与更广泛的大数据社区分享这些好处,Uber 在 2017 年开源了 Hudi。


2019 年 1 月,我们向Apache孵化器提交了Hudi,从而进一步推进了我们的开源承诺,保证 Apache Hudi 可以在 Apache 软件基金会的开放治理和指导下长期可持续性地增长。


Hudi 联合创始人 Vinoth Chandar 说:“考虑到 Uber 使用了这么多优秀的 Apache 项目,我们相信 Apache 社区驱动的开源开发方式将使我们能够与不同的贡献者合作,发展 Apache Hudi。我们期待与 Apache 软件基金会合作,实现最佳实践,并为项目带来新的想法。”


随着时间的推移,在大数据开源社区的帮助下,Hudi 已经发展成为一个通用的大数据存储系统,使得以下特性成为可能:


  • 摄取和查询引擎之间的快照隔离,包括 Apache Hive、Presto 和 Apache Spark;

  • 支持回滚和存储点,可以恢复数据集;

  • 自动管理文件大小和布局,以优化查询性能和目录清单;

  • 准实时摄取,为查询提供最新数据;

  • 实时数据和列数据的异步压缩。


Hudi 目前管理着 4000 多个表,这些表在 Uber 上存储了几 PB 的数据,同时将 Apache Hadoop 仓库访问延迟从几个小时降低到 30 分钟以下,这证明了它的可伸缩性。Hudi 还为数百个增量数据管道提供了支撑,与该公司以前使用的解决方案相比,它的成本更低,效率更高。


展望未来,该项目将与 Apache 软件基金会合作。请查看Apache Hudi项目页面以获得技术文档和社区参与指南。


查看英文原文:Uber Submits Hudi, an Open Source Big Data Library, to The Apache Software Foundation


2019-04-23 15:505175
用户头像

发布了 847 篇内容, 共 590.4 次阅读, 收获喜欢 1605 次。

关注

评论

发布
暂无评论
发现更多内容

快速理解 MCP(模型上下文协议)核心价值

柯杰

MCP

过去一年的工作总结

yuanyxh

JavaScript 总结 前端

分析型数据库入门指南:如何选择适合你的实时分析工具?

镜舟科技

分析型数据库 云原生架构 列式存储 实时分析 MPP架构

徽客松S1 | 合肥首场 AI 黑客松招募

声网

信息混乱、协作低效?一文教你打造团队的单一事实来源

跟YY哥学Jira

知识管理 Confluence 知识管理软件 企业知识库 单一事实来源

TVM虚拟机应用实例

上海茶芯科技

编程语言 软件开发 虚拟机

大胆试错、持续推进,拓展 GenAI 在客户服务领域的新场景

亚马逊云科技 (Amazon Web Services)

游戏服务器不加防护能活多久?

网络安全服务

CDN 游戏服务器 高防服务器 高防IP DDoS 攻击

YashanDB 知识库|共享集群换 IP 全流程,手把手教你搞定!

数据库砖家

数据库·

TVM虚拟机

上海茶芯科技

编程语言 虚拟机

YashanDB 知识库|手把手教你回收表空间,释放磁盘的正确姿势!

数据库砖家

数据库

YashanDB 知识库|yasql 登录失败?可能是你没处理好特殊字符!

数据库砖家

数据库·

YashanDB 知识库|迁移报告下载失败?可能是 Java 版本太新了!

数据库砖家

数据库

Arthas redefine(加载外部的.class文件,redefine到JVM里 )

刘大猫

人工智能 监控 Arthas 大模型 redefine

等保二级测评国家标准详解

黑龙江陆陆信息测评部

小白也可以看懂的 MCP 介绍

火山引擎开发者社区

MCP

YashanDB 知识库|如何用闪回功能救回误删的数据?全流程实战演示

数据库砖家

数据库·

运维实战|快速搭建适配 YashanDB 的 Prometheus Exporter!手把手教学

数据库砖家

数据库

Easysearch 迁移数据之 Reindex From Remote

极限实验室

easysearch

夸克新入口:重构AI“视界观”,望见阿里AI新版图

脑极体

AI

强强联合,智见未来:麦杰科技将携手视源股份亮相数字中国,以“集团级生产管理平台”赋能数实融合

麦杰研究院

YashanDB 知识库|yasboot 查询状态显示 off?原来是启动方式搞错了!

数据库砖家

数据库·

【Workshop 第一期 - 北京站】搜索服务统一治理(跨引擎多个集群监控管理、流量管控、服务编排)

极限实验室

Gateway Cloud Workshop easysearch

YashanDB 知识库|YMP 报 YAS-04204 错误?可能是你的并发配置超了限!

数据库砖家

数据库

一文看懂iVX:技术架构、功能特性、性能优化手段

代码制造者

Multi-SWE-bench:首个多语言代码修复基准开源

火山引擎开发者社区

语言 & 开发 豆包

JimuBI 积木报表 v1.9.5发布,大屏和仪表盘,免费数据可视化

JEECG低代码

数据可视化 数据大屏 大屏设计器 仪表盘设计 积木BI

YashanDB 知识库|YAS-02143 登录失败?可能不是密码错,而是 JDK 版本太老了

数据库砖家

数据库·

豆包1.5·深度思考模型发布!效果好、低延迟、多模态

火山引擎开发者社区

AI 豆包

YashanDB 知识库|轻松打通多库数据,YashanDB DBLink 使用指南!

数据库砖家

数据库

强强联合,智见未来:麦杰科技将携手视源股份亮相数字中国,以“集团级生产管理平台”赋能数实融合

麦杰科技

Uber大数据程序库Hudi,正式进入Apache软件基金会_开源_Brian Hsieh_InfoQ精选文章