InfoQ技术大会双节活动折上折,满10000-1000>> 了解详情
写点什么

开源数据湖方案 Apache Iceberg 成立公司,CEO:我们将消除数据维护和优化难题

2021 年 9 月 01 日

开源数据湖方案Apache Iceberg 成立公司,CEO:我们将消除数据维护和优化难题

当地时间 8 月 29 日,Apache Iceberg的创建者 Ryan Blue、Dan Weeks 和 Netflix 数据架构总监 Jason Reid 宣布从风投 a16z 处拿到了 A 轮融资,正式成立围绕 Apache Iceberg 构建新型数据平台的商业公司 Tabular

 

Apache Iceberg 是一个通用的表格式(数据组织格式),可以适配 Presto、Spark 等引擎提供高性能的读写和元数据管理功能。目前已被 Netflix、苹果、Adobe、LinkedIn、Expedia、Stripe 等公司采用。

 

“从根本上构建一个独立、云原生并且可以积极管理数据的平台,是我和其他联合创始人创建 Tabular 的初衷。”现任 Tabular 首席执行官的 Ryan Blue 表示。Ryan Blue 在其文章中指出当前数据基础设施主要存在两大缺点:

 

首先,数据湖充满陷阱和挫折,这让人们不得不成为解决各种古怪限制的专家,而不能专注在把事情做好上。删除一列数据可能会悄悄破坏查询结果,不知道应该向查询添加冗余过滤器可能会浪费分析师数天的时间,更不用说还增加了云成本。

 

其次,大数据生态系统一直在把问题推给错误的人。使用这些技术的人应该专注于构建相关和可靠的数据产品,但他们不得不浪费时间担心 SQL 会生成多少文件。数据基础设施应该做得更多,而不是要靠人来弥补它的许多差距。

 

Apache Iceberg 认为,节省时间和消除令人头痛的问题是数据基础设施的关键下一步。Blue 表示,Iceberg 哲学的核心是让人们开心:数据基础设施应该在没有令人不快的意外情况下正常工作。

 

Blue 表示,Tabular 将消除数据维护和优化难题。开发者可以使用 Iceberg 安全地自主构建管理表。数据平台可以提供更多的功能,包括压缩、集群、配置、索引等。

 

此前在 Netflix,Iceberg 使得从 Kafka 流入的数据在几分钟内便可以使用,而非原来的数小时。在此过程中,Netflix 将 Iceberg 开源出来并捐赠给了Apache 软件基金会。Tabular 承诺永远不会控制或伤害 Iceberg,并将为开源社区作出贡献。“Iceberg 的持续成功取决于建立了一个通用和开放标准的多元化社区。”Blue 表示。

 

目前市面上流行的三大开源数据湖方案分别为:Delta、Apache Iceberg 和 Apache Hudi。其中 Iceberg 以自身独特的优势被越来越多开发者关注。

 

首先,Iceberg 的架构和实现没有绑定到某一特定引擎,实现了通用的数据组织格式,利用此格式可以与不同引擎(如 Flink、Hive、Spark)对接。其次,Iceberg 还有良好的架构和开放格式。相比于 Hudi、Delta Lake,Iceberg 的架构实现更为优雅,同时对于数据格式、类型系统有完备的定义和可进化的设计。此外,Iceberg 在数据组织方式上充分考虑了对象存储的特性,避免耗时的 listing 和 rename 操作,使其在基于对象存储的数据湖架构适配上更有优势。

2021 年 9 月 01 日 16:233033

评论

发布
暂无评论
发现更多内容

网络冲浪信任危机频发,区块链能否破局?

CECBC区块链专委会

区块链 征信透明

架构师训练营第 1 期 - 第九周作业

Todd-Lee

极客大学架构师训练营

MyBatis 面试题(附答案解析)

比伯

Java 大数据 编程 架构 面试

JVM运行时数据区,你真得好好学一学

Simon郎

JVM Java 分布式

阿里大牛八年打造,编程宝典,从初学到编程进阶—深入学习—实战

Java~~~

Java 阿里巴巴 程序员 架构 编程语言

Spring Cloud Config 实现分布式配置中心

AI乔治

Java 架构 微服务 Spring Cloud

看“区块链”如何为外贸企业融资

CECBC区块链专委会

区块链 银行

React 灵魂 23 问

局外人

Java 前端 React

结合实战和源码来聊聊Java中的SPI机制?

冰河

Java spi 服务发现

消灭微服务的坏味道 之 循环依赖

码猿外

微服务 循环依赖 坏味道

《使用C ++的数据结构和程序设计》限时免费下载

计算机与AI

c++

第五周 - 作业

leo

极客大学架构师训练营

阿里内部“新鲜出炉”手慢无!首发面试终极指南V3.0,符合一线大厂面试知识点+面试题

Java架构追梦

Java 阿里巴巴 架构 面试 分布式

实现2nm工艺突破,台积电为何能给“摩尔定律”续命?

脑极体

用 Python 实现定时自动化收取蚂蚁森林能量

Python小二

Python

第五周-笔记

leo

极客大学架构师训练营

git使用与原理剖析及其私服搭建

程序员Fox

git

区块链的新信任模式将重塑传统金融业

CECBC区块链专委会

区块链 资产流动性

接口的幂等性的多重考虑,你会了吗?

moon聊技术

Java 接口

输入法B端市场转化:百度推动产业智能化的新路径

脑极体

Appium常用操作之「Toast提示信息获取」

清菡

大专学历Java开发7年,从年初被裁到四面美团点评成功上岸,闭关七个月,入职那一天我哭了!

Java架构追梦

Java 阿里巴巴 面试 美团 java架构

Nacos实战及其源码分析

程序员Fox

Spring Cloud nacos spring cloud alibaba

给,你们想要的内存溢出MAT排查工具

田维常

内存溢出

《ZooKeeper分布式过程协同技术详解》.pdf

田维常

电子书

架构师训练营第 1 期 - 第九周总结

Todd-Lee

极客大学架构师训练营

Maven-技术专题-Setting文件结构解析

李浩宇/Alex

五、一致性哈希算法

Geek_28b526

架构师系列之6: python实现一致性hash

桃花原记

石、火、水:从OriginOS透视移动系统进化论

脑极体

LeetCode 热题 - 递归

哈希说

LeetCode

开源数据湖方案Apache Iceberg 成立公司,CEO:我们将消除数据维护和优化难题-InfoQ