写点什么

Uber 大数据程序库 Hudi,正式进入 Apache 软件基金会

  • 2019-04-23
  • 本文字数:902 字

    阅读完需:约 3 分钟

Uber大数据程序库Hudi,正式进入Apache软件基金会

Hudi 于 2016 年以“Hoodie”为代号开发,旨在解决 Uber 大数据生态系统中需要插入更新及增量消费原语的摄取管道和 ETL 管道的低效问题。2019 年 1 月,Uber 向 Apache 孵化器提交了 Hudi,从而进一步推进了 Uber 的开源承诺,保证 Apache Hudi 可以在 Apache 软件基金会的开放治理和指导下长期可持续性地增长。


快速处理和访问 PB 级数据的能力对于整个数据生态系统的规模化增长至关重要。尽管如此,这种对规模和速度的综合需求并不总是可以自然地适配现有的批处理和流系统架构。


Hudi 于 2016 年以“Hoodie”为代号开发,旨在解决 Uber大数据生态系统中需要插入更新和增量消费原语的摄取管道和 ETL 管道的低效问题。为了与更广泛的大数据社区分享这些好处,Uber 在 2017 年开源了 Hudi。


2019 年 1 月,我们向Apache孵化器提交了Hudi,从而进一步推进了我们的开源承诺,保证 Apache Hudi 可以在 Apache 软件基金会的开放治理和指导下长期可持续性地增长。


Hudi 联合创始人 Vinoth Chandar 说:“考虑到 Uber 使用了这么多优秀的 Apache 项目,我们相信 Apache 社区驱动的开源开发方式将使我们能够与不同的贡献者合作,发展 Apache Hudi。我们期待与 Apache 软件基金会合作,实现最佳实践,并为项目带来新的想法。”


随着时间的推移,在大数据开源社区的帮助下,Hudi 已经发展成为一个通用的大数据存储系统,使得以下特性成为可能:


  • 摄取和查询引擎之间的快照隔离,包括 Apache Hive、Presto 和 Apache Spark;

  • 支持回滚和存储点,可以恢复数据集;

  • 自动管理文件大小和布局,以优化查询性能和目录清单;

  • 准实时摄取,为查询提供最新数据;

  • 实时数据和列数据的异步压缩。


Hudi 目前管理着 4000 多个表,这些表在 Uber 上存储了几 PB 的数据,同时将 Apache Hadoop 仓库访问延迟从几个小时降低到 30 分钟以下,这证明了它的可伸缩性。Hudi 还为数百个增量数据管道提供了支撑,与该公司以前使用的解决方案相比,它的成本更低,效率更高。


展望未来,该项目将与 Apache 软件基金会合作。请查看Apache Hudi项目页面以获得技术文档和社区参与指南。


查看英文原文:Uber Submits Hudi, an Open Source Big Data Library, to The Apache Software Foundation


2019-04-23 15:505113
用户头像

发布了 806 篇内容, 共 553.7 次阅读, 收获喜欢 1586 次。

关注

评论

发布
暂无评论
发现更多内容

2025年,Web3开发学习路线全指南

chainwiseweb3

区块链 去中心化 DAPP系统开发 交易所源码 加密货币钱包

SD-WAN企业智能物流网络解决方案

Ogcloud

SD-WAN 智能物流 SD-WAN组网 SD-WAN服务商 SD-WAN国际专线

一行代码都不改,Golang 应用链路指标日志全知道!

阿里巴巴云原生

阿里云 开源 云原生

实施模式变革,汉得实施HAP的最佳实践

明道云

破局沉寂的区块链市场:未来之路与战略思考

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

不愧是自媒体人的黑科技,融媒宝让内容一键发布到多平台

编程猫

明道云在生态环境领域的应用

明道云

华为云云日志服务 HarmonyOS NEXT采集最佳实践

华为云开发者联盟

sdk HarmonyOS 日志采集 ArkTS

SD-WAN为企业国际业务提供坚实网络支持

Ogcloud

SD-WAN SD-WAN组网 SD-WAN国际专线 海外网络专线 海外网络访问

区块链钱包开发:全面功能设计方案解析

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

AWS数据合作伙伴|质变科技受邀分享Serverless AI-ready Data Cloud

AI数据云Relyt

Data Lake 云数据库 数据云 Data-Centric AI AI-ready Data Cloud

探索1688阿里巴巴API接口:关键字搜索与拍立淘图片搜索的无限可能

代码忍者

API 接口 pinduoduo API

【拆解篇】CTO眼里的数据治理,其实就这三点!

小鲸数据

#数据治理框架 #数据治理 #数据质量 #数据标准

Java日志记录几种实现方案

不在线第一只蜗牛

Java Python

个人网盘领域首个获批!百度网盘获颁“个人信息保护认证证书”

百度安全

淘宝天猫API接口探秘:解锁店铺商品与拍立淘搜索的无限可能

代码忍者

API 接口 pinduoduo API

认识Redis集群

不在线第一只蜗牛

数据库 redis Spring Boot

全链路解析如何构建数据资产管理框架及落地实践丨袋鼠云“数智基建+数智应用”赋能分享02期

袋鼠云数栈

加速数字化转型:运营商产品加载流程优化

鲸品堂

流程 运营商 优化工具 企业号 2024年12月PK榜

【FAQ】HarmonyOS SDK 闭源开放能力 —Push Kit(7)

HarmonyOS SDK

harmoyos

从模型到实际:人工智能项目落地的关键要素

天津汇柏科技有限公司

AI 人工智能

使用Python开发获取商品销量详情API接口

科普小能手

跨境电商 Python开发 API 接口 API 开发 淘宝商品销量接口

Uber大数据程序库Hudi,正式进入Apache软件基金会_开源_Brian Hsieh_InfoQ精选文章