大数据架构变革进行时:为什么腾讯看好Apache Iceberg?

2020 年 4 月 22 日

大数据架构变革进行时:为什么腾讯看好Apache Iceberg?

随着大数据存储和处理需求越来越多样化,如何构建一个统一的数据湖存储,并在其上进行多种形式的数据分析,成了企业构建大数据生态的一个重要方向。如何快速、一致、原子性地在数据湖存储上构建起 Data Pipeline,成了亟待解决的问题。为此,Uber 开源了 Apache Hudi,Databricks 提出了 Delta Lake,而 Netflix 则发起了 Apache Iceberg 项目,一时间这种具备 ACID 能力的表格式中间件成为了大数据、数据湖领域炙手可热的方向。

虽然现阶段国内仍然缺乏数据湖概念上的优秀商业方案,但在基础软件开源化的趋势下,国内企业在数据湖技术点上的探索与跟进并不比国外企业落后太多。腾讯在 2018 年加入大数据存储开源项目 Apache Ozone,后又于 2019 年开始投入研发 Apache Iceberg;阿里巴巴也正联合 Apache Iceberg 社区积极推动 Flink 实时数据湖技术方案的落地。那么,Iceberg 和其他两个开源项目有何不同?为什么阿里和腾讯都在积极投入 Iceberg 的开源生态?Iceberg 有什么独到之处?近期 InfoQ 采访了腾讯数据平台部数据湖内核技术负责人、资深大数据工程师邵赛赛,他与我们分享了腾讯选择 Iceberg 前后的一些思考和采用 Iceberg 之后所做的优化工作,本文基于采访整理而成。邵赛赛还将在 QCon 全球软件开发大会(北京站)2020 带来主题为《Iceberg - 新一代的数据湖表格式》的演讲分享,感兴趣的读者可以关注。

原文链接:【 https://www.infoq.cn/article/59lbBUvCrZluSmDOWJBB 】。未经作者许可,禁止转载。

登录后可解锁全站优质内容

免费畅享技术公开课、顶尖技术团队访谈、一线互联网大厂技术实践

文章
视频
电子书
研究报告
立即登录
2020 年 4 月 22 日 11:00 7379
用户头像
蔡芳芳 InfoQ高级编辑

发布了 123 篇内容,共 2268 次阅读,收获喜欢 4 次。

关注

评论 10 条评论

发布
用户头像
Iceberg的确设计得更优雅,但是怎么才能和数据砖头争夺ETL/ML用户群的投入和坚持,毕竟大家只想更容易的ETL。

https://medium.com/@eric.sun_39815/rescue-to-distributed-file-system-2dd8abd5d80d
2020 年 06 月 10 日 04:19
回复
用户头像
有点好奇?腾讯不是在规划"OZone - 下一代数据湖存储", 现在又要拥抱Iceberg?why?
2020 年 05 月 28 日 19:50
回复
这两个是不同的项目,OZone是数据湖存储,Iceberg是在它之上的表格式
2020 年 05 月 29 日 00:04
回复
用户头像
其实蛮好奇,为什么不直接对数据库进行修改,而要用中间件的这种方式解决?是因为成本吗?
2020 年 05 月 28 日 14:15
回复
用户头像
收到,有意思,第一次听说 Apache Iceberg
2020 年 05 月 13 日 10:15
回复
用户头像
为什么最后名字写错了?邵赛赛不是蔡芳芳
2020 年 04 月 23 日 09:36
回复
邵赛赛是接受采访的嘉宾,蔡芳芳是记者和写文章的人
2020 年 04 月 23 日 09:50
回复
用户头像
随着国内推广的增多,以及国内开发者在这个项目上的投入、运营,未来在国内 Iceberg 前景可期。
表示怀疑~
2020 年 04 月 22 日 18:23
回复
👌
2020 年 04 月 22 日 18:26
回复
只能且看后续了~
2020 年 04 月 22 日 19:13
回复
没有更多评论了
发现更多内容

积极支持EdgeX发展,英特尔为2020 EdgeX中国挑战赛获奖队伍创造广阔合作空间

飞天鱼2017

最大的 String 字符长度是多少?

武培轩

Java 源码 后端 JVM

猿灯塔:spring Boot Starter开发及源码刨析(二)

猿灯塔

Java 猿灯塔 源码刨析

一些思考

张健

开发者必备——IDEA配置清单

Noneplus

配置 IDEA

信创舆情一线--《关键信息基础设施安全保护条例》纳入2020年立法计划

统小信uos

信息安全

领域驱动设计(DDD)实践之路(一)

vivo互联网技术

架构 领域驱动设计 DDD

Node.js与二进制数据流

自然醒

JavaScript node.js 前端 二进制

mac vmware centos7 设置静态IP

愤毛阿青

network vmware Centos 7

30 张图带你分分钟看懂进程和线程基础知识全家桶

爱嘤嘤嘤斯坦

Java 线程 进程 进程线程区别

性能碾压 POI !利用模板语法快速生成 Excel 报表

Geek_Willie

表格控件 GCExcel 服务器端开发

编程能力 —— 解析表达式

wendraw

JavaScript 前端进阶训练营 编程能力

5分钟上手部署!!!

清风

Java Spring Boot

Rust是如何保障内存安全的

博文视点Broadview

读书笔记 rust

带你解析MySQL binlog

Simon

MySQL Binlog

漫画 | 架构设计中的那些事

码农神说

架构设计 架构师 漫画编程

编程能力 —— 异步编程

wendraw

JavaScript 前端进阶训练营 编程能力

利用 Python 爬取了 13966 条运维招聘信息,我得出了哪些结论?

JackTian

Python Linux 运维 数据分析 招聘

一文看懂 OAuth2

pingan8787

JavaScript 前端 Web oauth2.0

图片处理不用愁,给你十个小帮手

阿宝哥

JavaScript 前端 工具 开源项目 图片

DDD实施过程中的点滴思考

Winfield

领域驱动设计 DDD

漫画通信:一图看懂通信发展史

巨侠说

Java 后端博客系统文章系统——No2

猿灯塔

还在划水?这个SQL你能写出来吗?

书旅

php MySQL SQL语法 sql查询

编程能力 —— 寻路问题

wendraw

JavaScript 前端进阶训练营 编程能力

HTTP/2 总结

guoguo 👻

SpringBoot入门:00 - 初始化项目

阿亮

Spring Boot java 14

Java集合总结,从源码到并发一路狂飙

给你买橘子

Java 编程 算法 集合

LR.Net平台研发轶事,每一个点都很难,但我们不将就

力软.net/java开发平台

C# .net 跨平台 框架开发

流水账

zack

数据结构与算法知识点总结

hiqian

大数据架构变革进行时:为什么腾讯看好Apache Iceberg?-InfoQ