写点什么

开源数据湖方案 Apache Iceberg 成立公司,CEO:我们将消除数据维护和优化难题

  • 2021 年 9 月 01 日
  • 本文字数:1083 字

    阅读完需:约 4 分钟

开源数据湖方案Apache Iceberg 成立公司,CEO:我们将消除数据维护和优化难题

当地时间 8 月 29 日,Apache Iceberg的创建者 Ryan Blue、Dan Weeks 和 Netflix 数据架构总监 Jason Reid 宣布从风投 a16z 处拿到了 A 轮融资,正式成立围绕 Apache Iceberg 构建新型数据平台的商业公司 Tabular

 

Apache Iceberg 是一个通用的表格式(数据组织格式),可以适配 Presto、Spark 等引擎提供高性能的读写和元数据管理功能。目前已被 Netflix、苹果、Adobe、LinkedIn、Expedia、Stripe 等公司采用。

 

“从根本上构建一个独立、云原生并且可以积极管理数据的平台,是我和其他联合创始人创建 Tabular 的初衷。”现任 Tabular 首席执行官的 Ryan Blue 表示。Ryan Blue 在其文章中指出当前数据基础设施主要存在两大缺点:

 

首先,数据湖充满陷阱和挫折,这让人们不得不成为解决各种古怪限制的专家,而不能专注在把事情做好上。删除一列数据可能会悄悄破坏查询结果,不知道应该向查询添加冗余过滤器可能会浪费分析师数天的时间,更不用说还增加了云成本。

 

其次,大数据生态系统一直在把问题推给错误的人。使用这些技术的人应该专注于构建相关和可靠的数据产品,但他们不得不浪费时间担心 SQL 会生成多少文件。数据基础设施应该做得更多,而不是要靠人来弥补它的许多差距。

 

Apache Iceberg 认为,节省时间和消除令人头痛的问题是数据基础设施的关键下一步。Blue 表示,Iceberg 哲学的核心是让人们开心:数据基础设施应该在没有令人不快的意外情况下正常工作。

 

Blue 表示,Tabular 将消除数据维护和优化难题。开发者可以使用 Iceberg 安全地自主构建管理表。数据平台可以提供更多的功能,包括压缩、集群、配置、索引等。

 

此前在 Netflix,Iceberg 使得从 Kafka 流入的数据在几分钟内便可以使用,而非原来的数小时。在此过程中,Netflix 将 Iceberg 开源出来并捐赠给了Apache 软件基金会。Tabular 承诺永远不会控制或伤害 Iceberg,并将为开源社区作出贡献。“Iceberg 的持续成功取决于建立了一个通用和开放标准的多元化社区。”Blue 表示。

 

目前市面上流行的三大开源数据湖方案分别为:Delta、Apache Iceberg 和 Apache Hudi。其中 Iceberg 以自身独特的优势被越来越多开发者关注。

 

首先,Iceberg 的架构和实现没有绑定到某一特定引擎,实现了通用的数据组织格式,利用此格式可以与不同引擎(如 Flink、Hive、Spark)对接。其次,Iceberg 还有良好的架构和开放格式。相比于 Hudi、Delta Lake,Iceberg 的架构实现更为优雅,同时对于数据格式、类型系统有完备的定义和可进化的设计。此外,Iceberg 在数据组织方式上充分考虑了对象存储的特性,避免耗时的 listing 和 rename 操作,使其在基于对象存储的数据湖架构适配上更有优势。

2021 年 9 月 01 日 16:233270

评论

发布
暂无评论
发现更多内容

区块链技术应用新阶段有五大趋势

Geek_987812

比特币 区块链 数字货币

LeetCode题解:236. 二叉树的最近公共祖先,递归,JavaScript,详细注释

Lee Chen

算法 LeetCode 前端进阶训练营

微软开源WebUI自动化测试神器Playwright​​​​​​​

软测小生

微软 自动化测试 playwright webUI Web自动化测试

学习,不是一件一蹴而就的事情

Sandy

小马哥刷LeetCode 1480. 一维数组的动态和

小马哥

Java 面试 数据结构与算法 28天写作

侵犯商业秘密罪律师提醒区块链技术与商业秘密的安全保管

Geek_987812

时间戳

分布式批量任务调度、自动化运维管理监控平台Taskctl

会飞的鱼

kettle 分布式系统 海豚调度 自动化部署 ETL

赫拉利其人其书之我见(2)

石君

28天写作 简史 科技简史

腾讯十年,总结出这份Java架构师知识路线,保你稳拿40k+

Java架构追梦

Java 面试 架构师成长笔记 金三银四 全栈知识点

软件测试--数据库基础知识

测试人生路

数据库 软件测试

Java 程序经验小结:剖析方法重载

后台技术汇

28天写作

架构师 3 期 3 班 -week7- 作业

zbest

作业 week7

公开!阿里甩出“源码阅读指南”,原来源码才是最经典的学习范例

程序员小毕

Java spring 源码 程序员 mybatis

什么是ReadWriteMany?

焱融科技

Kubernetes 云原生 存储 焱融科技 持久化存储

什么是区块链挖矿?区块链怎么挖矿?

v16629866266

网络请求是如何发送出去的

kof11321

网络

SpringCloud 从入门到精通 04---支付模块 02

Felix

上链DAPP软件开发|上链DAPP系统APP开发

系统开发

我是如何用几十个小时完成自己的3个flag

Sandy

SpringCloud 从入门到精通 05--- 订单模块

Felix

STM32标准库开发实战指南

华为云开发者社区

SMT32处理器 stm32 内核 寄存器

五分钟快速掌握Maven的核心概念

田维常

maven

写作感悟之无从下笔

JiangX

写作 28天写作

创业失败启示录|校园微生活(故事篇1)

青城

创业 28天写作 创业失败启示录 青城

全面开创城市数字经济新时代

Geek_987812

数字经济

刷透近200道数据结构与算法,成功加冕“题王”,挤进梦中的字节

Crud的程序员

架构 面试 算法 数据结构与算法

波场链DAPP软件APP开发|波场链DAPP系统开发

系统开发

【吐血整理】超全golang面试题合集+golang学习指南+golang知识图谱+成长路线 一份涵盖大部分golang程序员所需要掌握的核心知识

9號

Go 面试 新手指南 编程之路 职业成长

没人告诉过你更复杂的缓存穿透怎么解决

艾小仙

架构

回顾2020年那些“领域第一本”,每一本都强烈推荐!

博文视点Broadview

没想到,学习带给我最宝贵的东西是底气

Sandy

数据cool谈(第2期)寻找下一代企业级数据库

数据cool谈(第2期)寻找下一代企业级数据库

开源数据湖方案Apache Iceberg 成立公司,CEO:我们将消除数据维护和优化难题-InfoQ