写点什么

Uber 大数据程序库 Hudi,正式进入 Apache 软件基金会

  • 2019-04-23
  • 本文字数:902 字

    阅读完需:约 3 分钟

Uber大数据程序库Hudi,正式进入Apache软件基金会

Hudi 于 2016 年以“Hoodie”为代号开发,旨在解决 Uber 大数据生态系统中需要插入更新及增量消费原语的摄取管道和 ETL 管道的低效问题。2019 年 1 月,Uber 向 Apache 孵化器提交了 Hudi,从而进一步推进了 Uber 的开源承诺,保证 Apache Hudi 可以在 Apache 软件基金会的开放治理和指导下长期可持续性地增长。


快速处理和访问 PB 级数据的能力对于整个数据生态系统的规模化增长至关重要。尽管如此,这种对规模和速度的综合需求并不总是可以自然地适配现有的批处理和流系统架构。


Hudi 于 2016 年以“Hoodie”为代号开发,旨在解决 Uber大数据生态系统中需要插入更新和增量消费原语的摄取管道和 ETL 管道的低效问题。为了与更广泛的大数据社区分享这些好处,Uber 在 2017 年开源了 Hudi。


2019 年 1 月,我们向Apache孵化器提交了Hudi,从而进一步推进了我们的开源承诺,保证 Apache Hudi 可以在 Apache 软件基金会的开放治理和指导下长期可持续性地增长。


Hudi 联合创始人 Vinoth Chandar 说:“考虑到 Uber 使用了这么多优秀的 Apache 项目,我们相信 Apache 社区驱动的开源开发方式将使我们能够与不同的贡献者合作,发展 Apache Hudi。我们期待与 Apache 软件基金会合作,实现最佳实践,并为项目带来新的想法。”


随着时间的推移,在大数据开源社区的帮助下,Hudi 已经发展成为一个通用的大数据存储系统,使得以下特性成为可能:


  • 摄取和查询引擎之间的快照隔离,包括 Apache Hive、Presto 和 Apache Spark;

  • 支持回滚和存储点,可以恢复数据集;

  • 自动管理文件大小和布局,以优化查询性能和目录清单;

  • 准实时摄取,为查询提供最新数据;

  • 实时数据和列数据的异步压缩。


Hudi 目前管理着 4000 多个表,这些表在 Uber 上存储了几 PB 的数据,同时将 Apache Hadoop 仓库访问延迟从几个小时降低到 30 分钟以下,这证明了它的可伸缩性。Hudi 还为数百个增量数据管道提供了支撑,与该公司以前使用的解决方案相比,它的成本更低,效率更高。


展望未来,该项目将与 Apache 软件基金会合作。请查看Apache Hudi项目页面以获得技术文档和社区参与指南。


查看英文原文:Uber Submits Hudi, an Open Source Big Data Library, to The Apache Software Foundation


2019-04-23 15:505198
用户头像

发布了 871 篇内容, 共 611.8 次阅读, 收获喜欢 1616 次。

关注

评论

发布
暂无评论
发现更多内容

低代码与AI的医药行业适配性实践:从技术融合到数智化转型的深度解析

量贩潮汐·WholesaleTide

低代码

AI时代的“数据之困”,什么是AI-Ready Data

MatrixOrigin

数据库 HTAP AI Agents

YashanDB数据库索引优化技术详解

数据库砖家

YashanDB数据库与人工智能结合的应用前景

数据库砖家

YashanDB数据库的最佳实践及实施方案总结

数据库砖家

数据库‘’

YashanDB数据库事务管理详解,保证数据一致性

数据库砖家

数据库‘’

YashanDB数据库数据迁移的步骤与注意事项

数据库砖家

2025年Java面试行情变了?技术不达标,如何快速逆袭拿高薪?

程序员高级码农

Java Java 面试 Java 面试题

51Talk发布2025年Q1财报:第一季度营业收入同比增长93.1%

财见

YashanDB数据库的维护成本与效益分析

数据库砖家

数据库‘’

YashanDB数据库实现高可用负载均衡配置说明

数据库砖家

数据库‘’

YashanDB数据库性能调优实用技巧分享

数据库砖家

英特尔推进技术创新,以规模更大的封装满足AI应用需求

E科讯

扎根业务,这个618商业智能体先跑起来

脑极体

AI

iOS 26 新增实时翻译:基于端侧并向第三方开放接口;Neuralink 和 Grok 使渐冻症患者重新「发声」丨日报

声网

YashanDB面向云计算平台的数据库优化方案

数据库砖家

数据库‘’

YashanDB如何支持企业的数据分析与决策支持?

数据库砖家

数据库‘’

YashanDB数据库实时备份技术及恢复操作指南

数据库砖家

数据库‘’

京东高薪“抢人”,刘强东杀向携程腹地

趣解商业

京东 携程 酒旅

BOE(京东方)“照亮成长路”公益项目新十年启幕 科技无界照亮美好未来

爱极客侠

征程 6E/M|如何解决量化部署时 mul 与 bool 类型数据交互的问题

地平线开发者

自动驾驶; 算法工具链 地平线征程6

YashanDB数据库的常见问题与解决办法

数据库砖家

数据库‘’

YashanDB数据库多语言支持及国际化方案介绍

数据库砖家

数据库‘’

TortoiseSVN使用-权限配置

刘大猫

人工智能 svn 权限控制 tortoiseSVN 权限配置

不是做大模型,而是落在执行闭环,酷开智能体思路浮出水面

业界

难哭了的高考数学题,4家国产大模型表现如何?

极客天地

YashanDB数据库多版本控制功能介绍与应用

数据库砖家

数据库‘’

YashanDB数据库功能与应用场景全面介绍

数据库砖家

数据库‘’

YashanDB数据库安全机制详解及企业应用建议

数据库砖家

数据库‘’

YashanDB数据库实时监控系统设计与实现

数据库砖家

数据库‘’

YashanDB数据库索引优化:提升查询性能的核心技术

数据库砖家

Uber大数据程序库Hudi,正式进入Apache软件基金会_开源_Brian Hsieh_InfoQ精选文章