写点什么

暗战升级,Databricks 收购 Tabular,Iceberg 社区陷入动荡

  • 2024-06-06
    北京
  • 本文字数:2726 字

    阅读完需:约 9 分钟

暗战升级,Databricks收购Tabular,Iceberg社区陷入动荡

事件


Databricks 收购了 Tabular。字少事大。


紧接着,最近刚刚发生的事件,Iceberg 的 Contributor Kanou Natsukawa 呼吁 Icerberg 的 PMCChair 辞职,核心他的担忧是存在利益冲突。



Kanou 意有所指,担心的是什么


为什么 Kanou 有这个担心?他其实真正担心的是,鉴于 Tabular 是 Iceberg“背后”的商业公司,有多位 Iceberg 的 PMC 在 Tabular 任职。那么这次收购之后,很有可能 Databricks 会完全能够控制 Tabular 和 Iceberg,及其标准。“标准”——真正的担忧是 Databricks 控制 Iceberg 标准的风险。


一箭双雕:Databricks 的战略意图


Databricks 此举的战略意图不难看出。一方面,他们希望发展自家的 DeltaLake,因为 DeltaLake 与 Iceberg 是直接竞争关系;另一方面,这也是在打击竞争对手 Snowflake。Snowflake 全面拥抱开放的湖仓标准,而 Iceberg 已经成为业界事实标准之一。通过收购 Tabular,Databricks 可以间接控制 Iceberg,从而在数据湖格式标准的竞争中占据优势地位。


历史总是相似的


当年 Oracle 收购 Mysql 是这个故事的翻版,Kanou 担心的正是这样的事情再次发生在 Iceberg 上。


MySQL 原开发者为瑞典的 MySQLAB 公司,该公司于 2008 年被昇阳微系统(Sun Microsystems)收购。2009 年,甲骨文公司(Oracle)收购昇阳微系统公司,MySQL 成为 Oracle 旗下产品。

(引文:https://zh.wikipedia.org/zh-hans/MySQL


这一事件在当时引起了开源社区的广泛关注和争议。时至今日,MySQL 仍是活跃的开源项目,但在 Oracle 的影响下,它的发展方向和节奏无疑发生了变化。Oracle 对 MySQL 的控制,也引发了开源社区对大公司介入开源项目的广泛讨论和反思。


Kanou 对 Databricks 收购 Tabular 的担忧,与当年社区对 Oracle 收购 MySQL 的顾虑如出一辙。历史似乎在重演,只是这一次,舞台从开源数据库转移到了开源数据湖存储标准。


Databricks 的意图可以说是明牌了。


在之前关于 Redshift 的采访中,Databricks 的 VP 明确表达了对数据存储格式的“野心”



(引文:https://inpractise.com/articles/databricks-melting-the-snow


能够看到两强相争之时,都看中了数据湖结构化存储标准这个兵家必争之地。为什么会这样?


因为传统的数据库引擎和未来 AI 模型多模态等引擎,去处理海量的额数据是一个多样性的处理过程。一方面数据是海量的,很难做到将海量的数据“喂”给不同的引擎,这样耗费的“数据搬运”或 ETL 成本太高;另一方面处理数据的引擎越来越多样。所以,必然会需要一个革命性地架构的改变。那么,今天 Snowflake 和 Databricks 的的数据的开放性格式标准或将是决定未来各方能走多远的一个关键技术。如果 Databricks 真的控制了 Iceberg,那么也就意味着很有可能 Icerberg 的发展会减缓,进而影响到支持 Iceberg 的 Snowflake。


云器科技在此前的发布会中详细解释了 AI 时代数据架构的发展趋势:


AI 时代的计算与存储将是 M 对 N 的关系架构,区别于一直以来数据库的计算和存储绑定的 1 对 1 关系



云器科技此前的分享来看,湖仓一体会成为主流架构,而 Iceberg 已成为事实标准。


下一代的数据架构将会是:

  • 一套数据,统一的元数据中心,具备*一致*性(其他层次上的数据用 Cache 抽象)

  • 开放性,数据格式公开可访问

  • 可插拔性,上层引擎/应用可以灵活的插在 Lakehouse 上(这对于新兴的 AI 引擎/应用至关重要)


关涛(云器科技联合创始人及 CTO)此前分享到,“开放的存储和元数据支持多引擎协作是 Data+AI 平台的演进方向。”


据此,不难理解 Snowflake 和 Databricks 会为此不惜重金布局“对线”。


Snowflake 和 Databricks 的暗战


之前 RyanBlue,ApacheIcebergPMCChair 在 IcebergSummit2024 中谈及开放的存储格式正在掀起一场“革命”,并暗戳戳地阴阳了 DeltaLake。意思是本来没想把 DeltaLake 算进来,但想了想还是算上吧。满脸的勉强。


we had this surprise realization a couple years ago when Snowflake and Redshift and other commercial data warehouses started adding support for Apache Iceberg. What's going on there?Why are they doing that?In order to answer that question...I think the central trend is that projects like Apache Iceberg, I would actually include Deltain this as well, have unlocked shared data warehouse storage.

(引自:“Iceberg Summit 2024 Keynote:The Quite Revolution”)


这次收购事件,可以看出 Databricks 毫不掩饰的讲出想釜底抽薪解决问题,为自己的 DeltaLake 开路


(图:Databricks VP 的演讲)


这场竞争双方是不惜代价全力以赴的。在 DatabricksVP 之前的一段访谈,谈到 Iceberg 和 Delta 的直接竞争,是一场非常决定性的战争,用了“WAR”这个词。


并非技术之争,而是“开放”与“控制”之争


Snowflake 在 2024/6/3 的发布会 Keynote 分享,数据是 AI 的基础设施......以前是数据送给引擎去处理,未来 AI 时代是多种引擎,包括 AI 引擎,计算引擎要趋向数据。Data Centralization 的理念是方向。


"The AI Data Cloud is lighting up every corner of the enterprise."

"Data... is the foundation of AI"

--Sridhar Ramaswamy, Snowflake CEO


(图:Snowflake Summit 2024 Keynote)


Snowflake 的产品经理 James Malone 在今天对 Tabular 的收购事件也发布了他的看法,他认为 Databricks 收购 Tabular 彰显了 Databricks 的“独占”与“控制”思维:

  • 独占而非共创

  • 谋求“全面控制”而非支持开放的技术社区



“开放标准本应由社区共同创建和维护,就像 Snowflake 新发布的 Polaris 那样,旨在促进生态共存。而 Databricks 的做法却恰恰相反,他们试图通过收购的方式来控制 Iceberg 标准,这种‘不能打败就购’的心态,与开源精神背道而驰。”



我们保持关注,希望 Iceberg 和技术社区能挺住


资本的力量,如果用在助力技术研发和应用落地,可以推动行业进步,造福社会,是“TechforGood”;而如果资本用于收购打压竞争对手时,就成了一种“资本之恶”。


Iceberg 能否在 Databricks 的控制下继续保持开放、中立,现在还是一个未知数。业界对此表示担忧,但同时也寄望于 Iceberg 社区能够坚守开源初心,维护项目的独立性。Iceberg 的命运,或许将成为资本与开源技术博弈的一个缩影。


(图:Iceberg 技术社区的讨论)


下周,Databricks 将召开年度发布会,而 Snowflake 的发布会也正在如火如荼地进行中。虽然两家巨头今年没有像去年那样选在同一时间异地开幕,但这丝毫不会减弱他们在数据领域的竞争激烈程度。相反,随着 Databricks 收购 Tabular 事件的发酵,两个海外数据平台巨头之争只会愈演愈烈。


人工智能正处在聚光灯的中心,各路科技公司都在追逐 AI 的绚丽光环。但在光环的背后,一场数据格式之争——关乎未来十年数据格式标准之争在暗处正在上演。


作者:苏郡城,云器科技运营总监,云计算大数据领域专家。曾主导阿里云国际业务数据体系建设,十余年一线数据化运营实战,助力企业实现数字化增长,热衷于技术社区分享。

2024-06-06 11:4222554
用户头像
鲁冬雪 GMI Cloud Head of China Marketing

发布了 367 篇内容, 共 299.2 次阅读, 收获喜欢 300 次。

关注

评论

发布
暂无评论
发现更多内容

数据可视化管理尽在RazorSQL注册激活版~

真大的脸盆

Mac 数据库管理 Mac 软件 管理数据库 数据库处理

BeanUtils.copyProperties的11个坑

Java你猿哥

Java spring ssm bean

C语言编程—枚举

芯动大师

人工智能与数据分析

Data 探险实验室

人工智能 机器学习 AI 数据分析 数据

开源一个网页版的 Xshell,支持 FTP 和 SFTP 两种方式!

Java你猿哥

Java json ssm Cookie xshell

CIO视角|平台工程带来的优势与机遇

SEAL安全

IdP 平台工程 企业号 5 月 PK 榜 内部开发平台

ERP已死,秒杀系统称王!阿里巴巴内部「10亿级并发设计文档」

Java你猿哥

数据库 缓存 分布式 消息队列 秒杀系统

七年老程序员的三四月总结:三十岁、准备婚礼、三次分享

拭心

程序人生 总结思考

ChatGPT对软件测试的影响

BY林子

软件测试 ChatGPT

实测 亚马逊AI 编程助手 Amazon CodeWhisperer(全网最全)

攻城先森

人工智能 编程 测试 AWS 亚马逊云科技

背刺Alibaba?阿里巴巴工程师1480道Java面试题及答案整理( 2023年 整理版)

Java你猿哥

Java MySQL redis JVM mybatis

软件设计中你考虑过重试了吗?

Java你猿哥

Java ssm 软件设计

微服务架构:构建灵活、可拓展和高效的现代应用体系

xfgg

Java 微服务

CISA零信任成熟度模型(译文)

权说安全

深度学习进阶篇-国内预训练模型[5]:ERINE、ERNIE 3.0、ERNIE-的设计思路、模型结构、应用场景等详解

汀丶人工智能

人工智能 自然语言处理 深度学习 文心 ERNIE Transformer

Software 软件版本的含义

Andy

线程池是如何执行的?任务太多会怎样?

javacn.site

【论文解读|GL-Cache 】基于组级学习的缓存替换算法

Databend

YashanDB推出共享集群技术 剑指核心系统替换

YashanDB

国产数据库

YashanDB携手中地数码联合发布空间数据存储管理解决方案

YashanDB

国产数据库

HUAWEI永远滴神!华为顶级网络专家总结出了这份网络协议开源手册

Java你猿哥

TCP ssm 网络协议 io IP

CSS小技巧使用 font-variation 让文字起飞

南城FE

CSS 设计 前端开发 动画 字体

知识点总结

程序员小张

YashanDB:以自研根技术筑牢企业数字化发展根基

YashanDB

国产数据库

未来,零信任安全还会持续火热吗?

权说安全

1行代码合并多个PPT文件,Python自动化办公

程序员晚枫

Python PPT 自动化办公

LangChain:构建个人AI代理从这里开始

devpoint

人工智能 AI langchain

防lombok实现一个Getter注解,AbstractProcessor实例

Java你猿哥

Java ssm lombok

GitHub星标126K的京东「微服务进阶笔记」首次开源!好评如潮

Java你猿哥

Java 架构 微服务 微服务架构 架构师

Go Module 语义化版本规范

江湖十年

Go 语言 go module go mod

究诸经典,探寻大模型演变之踪迹

Baihai IDP

人工智能 深度学习 大模型 LLM 白海科技

暗战升级,Databricks收购Tabular,Iceberg社区陷入动荡_大数据_苏郡城_InfoQ精选文章