写点什么

Apache Iceberg 赢得未来:2025 年如何前进

  • 2025-01-16
    北京
  • 本文字数:2084 字

    阅读完需:约 7 分钟

Apache Iceberg 赢得未来:2025 年如何前进

作者 | 吴英骏



多年来,数据工程社区一直在争论开放表格式(Open table formats )的未来。是 Delta Lake 凭借与 Databricks 的紧密集成取得胜利?还是 Apache Hudi 利用在流处理领域的早期优势脱颖而出?亦或是 Apache Iceberg 悄然崛起,成为行业主导者?


2024 年底,答案已经明了。Databricks 收购了由 Iceberg 原始创建者成立的公司 Tabular,这表明了其对 Iceberg 潜力的高度认可。同时,Snowflake 推出了基于 Iceberg 的目录服务 Polaris。再加上 Starburst 和 Dremio 等知名查询引擎厂商对 Polaris 的支持,整个行业逐渐达成了共识——Apache Iceberg 成为事实上的开放表格式标准。


但这仅仅是故事的开始,展望 2025 年,多个关键发展将进一步巩固 Iceberg 在现代数据工程中的地位。


2025 年 Iceberg 的关键演进


1. RBAC 目录:解决大规模权限管理问题


我们的不得不承认,由于缺乏统一的标准和方法,数据湖中的权限管理一直以来都非常混乱。用户可能会在 S3 存储桶级别设置权限,也可能依赖查询引擎特定的访问控制机制,亦或是其他方法。这种不统一的权限管理方式不仅效率低下,还带来了安全风险。


Iceberg 社区正在通过一个新的 OpenAPI 规范(PR #10722)着手解决这一问题。该规范标准化了凭证结构,使开发者能够直接在 Iceberg 目录中构建基于角色的访问控制(RBAC)系统。


例如,管理员可以在目录级别定义精细的访问策略,而无需依赖底层存储或查询引擎。这些功能与 Databricks 的 Unity Catalog 等企业级特性类似,但同时具备 Iceberg 的开放性和灵活性。


2. 变更数据捕获(CDC):Iceberg 的流处理演进


“Iceberg 不适合流处理”这一观点在过去颇为流行。确实,Iceberg 缺乏强大的 CDC 功能。尽管其架构支持版本化的表快照(Spark CDC 操作),但并未针对高频数据变化或实时分析进行优化。


这种情况将在 Iceberg Spec V3 中得到改变,该版本引入了一项关键功能:行级谱系(Row Lineage)


行级谱系使 Iceberg 能够跟踪每一行数据的更新、删除或插入变更。这使得在 Iceberg 表上直接实现高效的 CDC 管道成为可能,对于流处理场景来说,这是一个巨大的进步。例如,物化视图维护和系统间的数据同步将更加顺畅。


更多详情可查看 《行级谱系》规范提案。一旦 Spec V3 完全实现,Iceberg 将在实时数据处理领域与 Kafka 和 Hudi 等传统以流处理为核心的系统展开竞争。


3. 物化视图:简化衍生数据


数据湖是存储原始历史数据(通常称为 Bronze Data)的地方。这些表的数量庞大且更新并不频繁,但真正有价值的是从这些原始数据中计算出的衍生数据集,如聚合、转换和预计算的指标。


迄今为止,Iceberg 缺乏对物化视图的内置支持,用户不得不依赖外部系统或定制方案来管理衍生数据。这带来了两个主要挑战:


  • 跟踪基础表与衍生表之间的依赖关系十分繁琐。

  • 对基础表的任何更新都需要重新计算衍生数据。


计划中的物化视图功能(PR #11041)将改变这一现状。通过物化视图,预计算结果将以表格形式存储,Iceberg 将管理跟踪依赖关系所需的元数据。这不仅意味着更高的查询性能,还能在基础表变化时自动更新衍生数据。


Iceberg 的扩张


随着 Iceberg 的不断发展,其生态系统也在扩展。以下是 2025 年值得关注的几个领域:


  • 新数据类型:支持带有时区的纳秒级精度时间戳,将使 Iceberg 适用于金融、电信等对高精度数据要求较高的行业。

  • 二进制删除向量:Spec V3 引入了一种可扩展且高效的删除方案,特别适用于法规要求或 GDPR 合规

  • 更广泛的查询引擎支持:RisingWave、Trino、Dremio 和 Flink 是一些正在积极增强其 Iceberg 集成的引擎。


Iceberg 的短板


Iceberg 的生态系统已经相当完善。用户可以通过 Kafka 或 Postgres 协议(借助 RisingWave)导入数据,并使用各种引擎查询。但一个明显的短板是缺乏:轻量级压缩


目前,压缩通常依赖于繁重的 Spark 作业,而这对于小型团队或小型工作负载来说可能过于复杂。对于希望采用更简单、资源效率更高的方式压缩 Iceberg 表的 SQL 和 Python 用户来说,这形成了一个障碍。


好消息是,社区已经意识到这一问题,并且对于构建一个轻量级、与引擎无关的压缩框架产生了越来越大的兴趣。希望 2025 年,能够推出让 Iceberg 对所有用户更加易用的解决方案。


前路展望


凭借 RBAC 目录、具备流处理能力、物化视图以及对新数据类型的支持等创新,Apache Iceberg 会逐渐巩固作为数据工程领域开放表格式标准的地位。


2024 年证明 Iceberg 能够赢得表格式之争。到了 2025 年,重点将转向让它变得更好、更快、更易用,不论是对于小型初创公司还是全球企业。无论您是在构建实时分析管道,管理 PB 级的历史数据,还是探索最前沿的数据湖仓架构,Iceberg 都能为您提供价值。


数据工程的未来已经到来,而它正是 Iceberg。


今日好文推荐


伪装“计算机工程师”窃取 TB 级数据勒索 25 万美元!前 FBI 特工解析 AI 时代安全危机


机器比人靠谱!Meta 耗时4年半,将 Java 代码转成 Kotlin:进度刚过半,真正难搞的还没开始


Airbnb死磕React Native惨败,微软却玩出花!Office、Outlook全线接入,Copilot成最大赢家


AI 开始明抢人类饭碗了!公司全员 AI 化,只重用“工程”背景员工,是转型新风向还是烧家具取暖?


2025-01-16 18:3614939

评论

发布
暂无评论

功能强大数据管理工具DBeaverEE 中文免激活版

胖墩儿不胖y

数据库管理工具 Mac软件 Mac数据库管理

DAPP锁仓质押挖矿系统开发

l8l259l3365

光模块是什么?

小齐写代码

每日一题:LeetCode-34. 在排序数组中查找元素的第一个和最后一个位置

Geek_4z9ami

Go 面试 算法 LeetCode 分治

CodeArts 五年磨一剑,深耕信创软件开发工具

ide 全球软件开发大会

2024空气源热泵展|2024山西国际供暖配套展会

秋硕展览

2023年终盘点系列丨YonGPT正式发布,中国软件服务创新进入人工智能新阶段!

用友BIP

YonGPT

WAVE SUMMIT+ 深度学习开发者大会2023 倒计时

飞桨PaddlePaddle

人工智能 深度学习 开发 开发者大会

智能制造解决方案之智能仓储

天津汇柏科技有限公司

仓储控制系统 解决方案 智能制造 仓储执行系统

记一次生产慢sql索引优化及思考 | 京东云技术团队

京东科技开发者

数据库 SQL优化 MySQL、

如何利用烛龙和谷歌插件优化CLS(累积布局偏移) | 京东云技术团队

京东科技开发者

前端 页面布局 CLS

QUIC在零信任解决方案的落地实践

权说安全

避坑合集|芝麻免押失败排查思路超详细总结(小程序场景)

盐焗代码虾

支付宝 信用 排查思路

玩转字词句魔法:打造超强样本集的数据增强策略,句式变换揭秘同义句生成与回译在数据增强中的创新应用

汀丶人工智能

人工智能 自然语言处理 分词 数据增强

软件测试/测试开发/人工智能丨使用 EvoSuite 自动生成单元测试用例

测试人

人工智能 软件测试

nginx+lua+redis实现灰度发布 | 京东云技术团队

京东科技开发者

lua nginx redis 服务器

开发者能力机制解析,玩转Sermant开发

华为云开源

服务治理 sermant 字节码增强框架

大模型时代下的因果推断

九章云极DataCanvas

Flask已死,FastAPI是未来

Bob Lin

Python django flask FastApi python web

全渠道、全触点、全用户 | 数智化运营赋能企业生意“无边界”

用友BIP

数智营销

基于微信支付的体育场馆预订小程序开发笔记一

CC同学

AI分布式训练:DDP (数据并行)技术详解与实战

Baihai IDP

人工智能 深度学习 AI 数据并行 白海科技

CentOS7挂载webdav添加开机启动

麦兜

AI助力软件工程师高效工作:8款神器助你优化工作流程

SEAL安全

人工智能 AI NLP 大模型

火山引擎AB测试:企业产品优化主题分享在北京举办

字节跳动数据平台

大数据 对比实验 大数据 A/B测试

Apache Iceberg 赢得未来:2025 年如何前进_数据湖仓_吴英骏_InfoQ精选文章