50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

Apache Hudi 1.0 正式发布

  • 2025-01-28
    北京
  • 本文字数:1215 字

    阅读完需:约 4 分钟

Apache Hudi 1.0 正式发布

最近,Apache 软件基金会宣布 Apache Hudi 1.0 正式发布。这是一个支持近实时分析的事务型数据湖平台,最初于 2017 年推出。Apache Hudi 提供了一种做过专门优化的开放式表格式,可实现增量数据管道的高效写入,提供可靠的查询性能。


最初,Hudi 是作为 Apache Hadoop 上的增量处理框架在 Uber 开发的,并于 2019 年提交给 Apache 软件基金会,旨在弥合类似数据库的功能与开放的数据湖架构之间的差距。Hudi 的主要优势在于能够同时支持近实时查询和批量查询。


最新版本引入的新特性旨在将数据湖转化为项目社区所认为的完备的 “数据湖管理系统”(DLMS)。Uber Hudi 项目创建者、Onehouse 首席执行官 Vinoth Chandar 写道:


Hudi 的亮点在于提供了高性能的开放式表格格式以及全面的开源软件栈,可对数据湖进行摄取、存储、优化和有效的自管理。在 Hudi 所处的大型供应商生态系统中,开放格式和开放软件之间的区别经常被忽略。尽管如此,对于 Hudi 的用户来说,避免‍与任何特定的数据供应商的计算锁定仍然是一个重要的考虑因素。


Hudi 1.0 (遵循 Apache 2.0 许可)引入了新的二级索引系统,旨在提高查询性能并降低数据扫描成本。现在,用户可以在二级列上创建基于 SQL 的索引,从而大大加快查询执行速度。该版本还包括基于表达式的索引,和 PostgreSQL 中的一项功能类似,它取代了传统的分区策略,使数据组织更加灵活高效。去年,当预览版发布时,Snyk 首席软件工程师 Boris Litvak 曾经写道:


在对象存储的三大 ACID 存储格式中,Apache Hudi 1.0(测试版)是第一个引入数据 “函数索引 ”的格式。在 SQL DB 术语中,我们通常称之为 “二级索引”。Delta.io 和 Apache Iceberg 何时会跟进?



图片来源:Apache Hudi 博客


该版本引入了对部分更新的支持,允许对特定字段而不是整行进行更新,从而提高了存储和计算效率。此外,非阻塞并发控制使多个流作业可以写入同一个数据集,而且不会造成瓶颈或故障。在谈到数据库架构时,Chandar 补充道:


至于完备的 DLMS 功能,Hudi 1.0 可以通过 Apache Spark 提供最接近的体验。用户可以部署安装了 Hudi 1.0 的 Spark 服务器(或 Spark Connect),提交 SQL/ 任务,通过 SQL 命令协调表服务,尽情使用二级索引功能,从而像 DBMS 一样加快查询速度。


Hudi 1.0 增强了存储引擎,包括采用日志结构合并(LSM)树来实现高效的时间线管理。这样就可以支持长期数据保留,并确保高性能查询规划,即使是包含数十亿条记录的数据集也不例外。Onehouse 和 Apache Hudi PMC 软件工程师 Bhavani Sudha Saktheeswaran 评论 说:


无论是要构建开放式数据平台,将数据流导入数据湖仓,并摒弃数据仓库,还是要优化高性能查询,Hudi 1.0.0 都能让你比以往更轻松地使用数据湖仓。


在旧金山 QCon 大会上,Saktheeswaran 和 Uber 软件工程师 Saketh Chintapalli 发表了关于使用 Apache Hudi 进行增量数据处理的演讲。会议录音可从 InfoQ 上获取。


原文链接:

https://www.infoq.com/news/2025/01/apache-hudi/

2025-01-28 08:0022267

评论

发布
暂无评论

🍃【Spring专题】「开发指南」手把手教你将@Schedule任务调度升级为分布式调度@DistributeSchedule

码界西柚

spring 分布式任务调度 任务调度 scheduler 11月月更

什么是双机热备?实现方式有哪些?

行云管家

高可用 ha 热备 双机热备

转行数据分析?你可能需要这块敲门砖!

博文视点Broadview

前端leetcde算法面试套路之堆

js2030code

JavaScript LeetCode

深入理解Metrics(三):Histograms

冰心的小屋

Java metrics Histograms

前端leetcde算法面试套路之二叉树

js2030code

JavaScript LeetCode

声网首席科学家钟声:感知实时互联网

声网

人工智能 模型

河北省等保测评机构新名单-行云管家

行云管家

网络安全 堡垒机 等级保护 等保测评 等级测评

前端leetcde算法面试套路之树

js2030code

JavaScript LeetCode

别再自己瞎写工具类了,Spring Boot 内置工具类应有尽有, 建议收藏!!

程序知音

Java spring springboot java面试 后端技术

【LeetCode】最长同值路径Java题解

Albert

算法 LeetCode 11月月更

细说js变量、作用域和垃圾回收

hellocoder2029

JavaScript

vivo鲁京辉:从体验到生态,守正创新,vivo隐私安全再升级

极客天地

推荐一份关于JDK实现&源码解读的经典著作,强烈建议Java程序员都看看

程序员小毕

程序员 程序人生 Java并发 后端 jdk源码

【C语言】double 关键字

謓泽

11月月更

web前端培训班学习前景怎么样

小谷哥

深入理解Metrics(四):Meters

冰心的小屋

Java metrics meters

大数据培训的前途怎么样

小谷哥

IM通讯协议专题学习(一):Protobuf从入门到精通,一篇就够!

JackJiang

网络编程 即时通讯 IM

赛况激烈!2022 OceanBase数据库大赛50强诞生

OceanBase 数据库

【收藏】锂电材料工厂设备日常保养评分标准

PreMaint

设备管理 设备日常保养

JS知识点梳理之作用域、作用域链、柯里化、闭包

hellocoder2029

JavaScript

AR空间音频能力,打造沉浸式声音体验

HarmonyOS SDK

华为 AR HMS Core

JavaScript刷LeetCode拿offer-位运算

Geek_07a724

JavaScript LeetCode

JavaScript刷LeetCode拿offer-高频链表题

Geek_07a724

JavaScript LeetCode

大数据培训和自学哪个好

小谷哥

刷完这19道leetcode二分查找算法,不信进不了大厂

Geek_07a724

JavaScript LeetCode

slurm集群调度策略详解(1)-主调度

慕冰

Slurm 调度系统 主调度

用户+案例+认证+框架一键搞定,不愧是阿里最新Spring Security全栈笔记!

Java永远的神

Java 程序员 springsecurity java面试 安全框架

全网首次公开!设计模式+代码+JVM调优,不愧是阿里Java性能优化核心原理全解手册

Java全栈架构师

程序员 程序人生 性能优化 后端 java面试

Apache Hudi 1.0 正式发布_数据湖仓_Renato Losio_InfoQ精选文章