Linux 之父出席、干货分享、圆桌讨论,精彩尽在 OpenCloudOS 社区开放日,报名戳 了解详情
写点什么

开源数据湖方案 Apache Iceberg 成立公司,CEO:我们将消除数据维护和优化难题

  • 2021 年 9 月 01 日
  • 本文字数:1083 字

    阅读完需:约 4 分钟

开源数据湖方案Apache Iceberg 成立公司,CEO:我们将消除数据维护和优化难题

当地时间 8 月 29 日,Apache Iceberg的创建者 Ryan Blue、Dan Weeks 和 Netflix 数据架构总监 Jason Reid 宣布从风投 a16z 处拿到了 A 轮融资,正式成立围绕 Apache Iceberg 构建新型数据平台的商业公司 Tabular

 

Apache Iceberg 是一个通用的表格式(数据组织格式),可以适配 Presto、Spark 等引擎提供高性能的读写和元数据管理功能。目前已被 Netflix、苹果、Adobe、LinkedIn、Expedia、Stripe 等公司采用。

 

“从根本上构建一个独立、云原生并且可以积极管理数据的平台,是我和其他联合创始人创建 Tabular 的初衷。”现任 Tabular 首席执行官的 Ryan Blue 表示。Ryan Blue 在其文章中指出当前数据基础设施主要存在两大缺点:

 

首先,数据湖充满陷阱和挫折,这让人们不得不成为解决各种古怪限制的专家,而不能专注在把事情做好上。删除一列数据可能会悄悄破坏查询结果,不知道应该向查询添加冗余过滤器可能会浪费分析师数天的时间,更不用说还增加了云成本。

 

其次,大数据生态系统一直在把问题推给错误的人。使用这些技术的人应该专注于构建相关和可靠的数据产品,但他们不得不浪费时间担心 SQL 会生成多少文件。数据基础设施应该做得更多,而不是要靠人来弥补它的许多差距。

 

Apache Iceberg 认为,节省时间和消除令人头痛的问题是数据基础设施的关键下一步。Blue 表示,Iceberg 哲学的核心是让人们开心:数据基础设施应该在没有令人不快的意外情况下正常工作。

 

Blue 表示,Tabular 将消除数据维护和优化难题。开发者可以使用 Iceberg 安全地自主构建管理表。数据平台可以提供更多的功能,包括压缩、集群、配置、索引等。

 

此前在 Netflix,Iceberg 使得从 Kafka 流入的数据在几分钟内便可以使用,而非原来的数小时。在此过程中,Netflix 将 Iceberg 开源出来并捐赠给了Apache 软件基金会。Tabular 承诺永远不会控制或伤害 Iceberg,并将为开源社区作出贡献。“Iceberg 的持续成功取决于建立了一个通用和开放标准的多元化社区。”Blue 表示。

 

目前市面上流行的三大开源数据湖方案分别为:Delta、Apache Iceberg 和 Apache Hudi。其中 Iceberg 以自身独特的优势被越来越多开发者关注。

 

首先,Iceberg 的架构和实现没有绑定到某一特定引擎,实现了通用的数据组织格式,利用此格式可以与不同引擎(如 Flink、Hive、Spark)对接。其次,Iceberg 还有良好的架构和开放格式。相比于 Hudi、Delta Lake,Iceberg 的架构实现更为优雅,同时对于数据格式、类型系统有完备的定义和可进化的设计。此外,Iceberg 在数据组织方式上充分考虑了对象存储的特性,避免耗时的 listing 和 rename 操作,使其在基于对象存储的数据湖架构适配上更有优势。

2021 年 9 月 01 日 16:233841

评论

发布
暂无评论
发现更多内容

InfoQ 极客传媒 15 周年庆征文|【Docker最佳实践】Windows上安装Docker及常见问题解决

迷彩

Docker 架构 运维 6月月更 InfoQ极客传媒15周年庆

华为云发布新伙伴体系,携手伙伴及开发者共建新生态,共创新价值

郝俸🦁好棒

华为云 生态

企评家|企业能不能投资就看各企业投资价值分析结果怎么样?

Geek_657354

企业评价 企业估值 企业估值企业成长性

开源等于免费吗?

源字节1号

开源

OpenHarmony 官网文档有哪些上新?下篇:设备开发文档上新

OpenHarmony开发者社区

Open Harmony

【TcaplusDB知识库】TcaplusDB机器初始化和上架介绍

tcaplus

支持 M3U8 格式播放的方法

CRMEB

【TcaplusDB知识库】TcaplusDB机型管理介绍

tcaplus

java培训MyBatis动态SQL

@零度

mybatis JAVA开发

【直播回顾】Hello HarmonyOS系列应用篇完美收官!

HarmonyOS开发者社区

HarmonyOS

摆脱五彩斑斓的黑,成为七彩程序员!

禅道项目管理

不同角度剖析:华联控股股份有限公司企业成长性等级得分

Geek_657354

企业评价 企业估值 企业财务分析

自主研发不断突破!索信达AI技术再获国家发明专利授权

索信达控股

PingCAP 与阿里云达成合作 云数据库 TiDB 上线阿里云心选商城

Geek_2d6073

【TcaplusDB知识库】TcaplusDB新增机型介绍

tcaplus

NFT链游系统开发|NFT卡牌盲盒游戏

薇電13242772558

NFT 链游

四次蝉联中国容器云市场TOP5!为应用赋能

BoCloud博云

云原生 容器技术 容器云 博云

一个 Angular 程序员两年多的远程办公经验分享 | 社区征文

Jerry Wang

程序员 远程办公 Slack 6月月更 初夏征文

InfoQ 极客传媒 15 周年庆征文 | 跨系统数据一致性问题

架构精进之路

数据一致性 构架 InfoQ极客传媒15周年庆

Vue-11-条件渲染

Python研究所

6月月更

现场办公VS居家办公——我的2022居家办公经验分享| 社区征文

No Silver Bullet

经验分享 居家办公 6月月更 初夏征文

详解Cache缓存与DB数据库一致性

分治实践

数据一致性 缓存Redis

大数据培训Flink 运行架构

@零度

flink 大数据开发

华为云王希海:构建云学堂,持续培养和赋能开发者

郝俸🦁好棒

华为云 生态

有了钉钉和企业微信,企业还需要专属IM吗?

WorkPlus Lite

GPU容器虚拟化:用户态和内核态的技术和实践详解

GPU容器虚拟化:用户态和内核态的技术和实践详解

开源数据湖方案Apache Iceberg 成立公司,CEO:我们将消除数据维护和优化难题_数据库_褚杏娟_InfoQ精选文章