写点什么

暗战升级,Databricks 收购 Tabular,Iceberg 社区陷入动荡

  • 2024-06-06
    北京
  • 本文字数:2726 字

    阅读完需:约 9 分钟

暗战升级,Databricks收购Tabular,Iceberg社区陷入动荡

AI 大模型超全落地场景&金融应用实践,8 月 16 - 19 日 FCon x AICon 大会联诀来袭、干货翻倍!

事件


Databricks 收购了 Tabular。字少事大。


紧接着,最近刚刚发生的事件,Iceberg 的 Contributor Kanou Natsukawa 呼吁 Icerberg 的 PMCChair 辞职,核心他的担忧是存在利益冲突。



Kanou 意有所指,担心的是什么


为什么 Kanou 有这个担心?他其实真正担心的是,鉴于 Tabular 是 Iceberg“背后”的商业公司,有多位 Iceberg 的 PMC 在 Tabular 任职。那么这次收购之后,很有可能 Databricks 会完全能够控制 Tabular 和 Iceberg,及其标准。“标准”——真正的担忧是 Databricks 控制 Iceberg 标准的风险。


一箭双雕:Databricks 的战略意图


Databricks 此举的战略意图不难看出。一方面,他们希望发展自家的 DeltaLake,因为 DeltaLake 与 Iceberg 是直接竞争关系;另一方面,这也是在打击竞争对手 Snowflake。Snowflake 全面拥抱开放的湖仓标准,而 Iceberg 已经成为业界事实标准之一。通过收购 Tabular,Databricks 可以间接控制 Iceberg,从而在数据湖格式标准的竞争中占据优势地位。


历史总是相似的


当年 Oracle 收购 Mysql 是这个故事的翻版,Kanou 担心的正是这样的事情再次发生在 Iceberg 上。


MySQL 原开发者为瑞典的 MySQLAB 公司,该公司于 2008 年被昇阳微系统(Sun Microsystems)收购。2009 年,甲骨文公司(Oracle)收购昇阳微系统公司,MySQL 成为 Oracle 旗下产品。

(引文:https://zh.wikipedia.org/zh-hans/MySQL


这一事件在当时引起了开源社区的广泛关注和争议。时至今日,MySQL 仍是活跃的开源项目,但在 Oracle 的影响下,它的发展方向和节奏无疑发生了变化。Oracle 对 MySQL 的控制,也引发了开源社区对大公司介入开源项目的广泛讨论和反思。


Kanou 对 Databricks 收购 Tabular 的担忧,与当年社区对 Oracle 收购 MySQL 的顾虑如出一辙。历史似乎在重演,只是这一次,舞台从开源数据库转移到了开源数据湖存储标准。


Databricks 的意图可以说是明牌了。


在之前关于 Redshift 的采访中,Databricks 的 VP 明确表达了对数据存储格式的“野心”



(引文:https://inpractise.com/articles/databricks-melting-the-snow


能够看到两强相争之时,都看中了数据湖结构化存储标准这个兵家必争之地。为什么会这样?


因为传统的数据库引擎和未来 AI 模型多模态等引擎,去处理海量的额数据是一个多样性的处理过程。一方面数据是海量的,很难做到将海量的数据“喂”给不同的引擎,这样耗费的“数据搬运”或 ETL 成本太高;另一方面处理数据的引擎越来越多样。所以,必然会需要一个革命性地架构的改变。那么,今天 Snowflake 和 Databricks 的的数据的开放性格式标准或将是决定未来各方能走多远的一个关键技术。如果 Databricks 真的控制了 Iceberg,那么也就意味着很有可能 Icerberg 的发展会减缓,进而影响到支持 Iceberg 的 Snowflake。


云器科技在此前的发布会中详细解释了 AI 时代数据架构的发展趋势:


AI 时代的计算与存储将是 M 对 N 的关系架构,区别于一直以来数据库的计算和存储绑定的 1 对 1 关系



云器科技此前的分享来看,湖仓一体会成为主流架构,而 Iceberg 已成为事实标准。


下一代的数据架构将会是:

  • 一套数据,统一的元数据中心,具备*一致*性(其他层次上的数据用 Cache 抽象)

  • 开放性,数据格式公开可访问

  • 可插拔性,上层引擎/应用可以灵活的插在 Lakehouse 上(这对于新兴的 AI 引擎/应用至关重要)


关涛(云器科技联合创始人及 CTO)此前分享到,“开放的存储和元数据支持多引擎协作是 Data+AI 平台的演进方向。”


据此,不难理解 Snowflake 和 Databricks 会为此不惜重金布局“对线”。


Snowflake 和 Databricks 的暗战


之前 RyanBlue,ApacheIcebergPMCChair 在 IcebergSummit2024 中谈及开放的存储格式正在掀起一场“革命”,并暗戳戳地阴阳了 DeltaLake。意思是本来没想把 DeltaLake 算进来,但想了想还是算上吧。满脸的勉强。


we had this surprise realization a couple years ago when Snowflake and Redshift and other commercial data warehouses started adding support for Apache Iceberg. What's going on there?Why are they doing that?In order to answer that question...I think the central trend is that projects like Apache Iceberg, I would actually include Deltain this as well, have unlocked shared data warehouse storage.

(引自:“Iceberg Summit 2024 Keynote:The Quite Revolution”)


这次收购事件,可以看出 Databricks 毫不掩饰的讲出想釜底抽薪解决问题,为自己的 DeltaLake 开路


(图:Databricks VP 的演讲)


这场竞争双方是不惜代价全力以赴的。在 DatabricksVP 之前的一段访谈,谈到 Iceberg 和 Delta 的直接竞争,是一场非常决定性的战争,用了“WAR”这个词。


并非技术之争,而是“开放”与“控制”之争


Snowflake 在 2024/6/3 的发布会 Keynote 分享,数据是 AI 的基础设施......以前是数据送给引擎去处理,未来 AI 时代是多种引擎,包括 AI 引擎,计算引擎要趋向数据。Data Centralization 的理念是方向。


"The AI Data Cloud is lighting up every corner of the enterprise."

"Data... is the foundation of AI"

--Sridhar Ramaswamy, Snowflake CEO


(图:Snowflake Summit 2024 Keynote)


Snowflake 的产品经理 James Malone 在今天对 Tabular 的收购事件也发布了他的看法,他认为 Databricks 收购 Tabular 彰显了 Databricks 的“独占”与“控制”思维:

  • 独占而非共创

  • 谋求“全面控制”而非支持开放的技术社区



“开放标准本应由社区共同创建和维护,就像 Snowflake 新发布的 Polaris 那样,旨在促进生态共存。而 Databricks 的做法却恰恰相反,他们试图通过收购的方式来控制 Iceberg 标准,这种‘不能打败就购’的心态,与开源精神背道而驰。”



我们保持关注,希望 Iceberg 和技术社区能挺住


资本的力量,如果用在助力技术研发和应用落地,可以推动行业进步,造福社会,是“TechforGood”;而如果资本用于收购打压竞争对手时,就成了一种“资本之恶”。


Iceberg 能否在 Databricks 的控制下继续保持开放、中立,现在还是一个未知数。业界对此表示担忧,但同时也寄望于 Iceberg 社区能够坚守开源初心,维护项目的独立性。Iceberg 的命运,或许将成为资本与开源技术博弈的一个缩影。


(图:Iceberg 技术社区的讨论)


下周,Databricks 将召开年度发布会,而 Snowflake 的发布会也正在如火如荼地进行中。虽然两家巨头今年没有像去年那样选在同一时间异地开幕,但这丝毫不会减弱他们在数据领域的竞争激烈程度。相反,随着 Databricks 收购 Tabular 事件的发酵,两个海外数据平台巨头之争只会愈演愈烈。


人工智能正处在聚光灯的中心,各路科技公司都在追逐 AI 的绚丽光环。但在光环的背后,一场数据格式之争——关乎未来十年数据格式标准之争在暗处正在上演。


作者:苏郡城,云器科技运营总监,云计算大数据领域专家。曾主导阿里云国际业务数据体系建设,十余年一线数据化运营实战,助力企业实现数字化增长,热衷于技术社区分享。

公众号推荐:

AIGC 技术正以惊人的速度重塑着创新的边界,InfoQ 首期《大模型领航者AIGC实践案例集锦》电子书,深度对话 30 位国内顶尖大模型专家,洞悉大模型技术前沿与未来趋势,精选 10 余个行业一线实践案例,全面展示大模型在多个垂直行业的应用成果,同时,揭秘全球热门大模型效果,为创业者、开发者提供决策支持和选型参考。关注「AI前线」,回复「领航者」免费获取电子书。

2024-06-06 11:4219553
用户头像
鲁冬雪 InfoQ 策划主编

发布了 351 篇内容, 共 221.4 次阅读, 收获喜欢 285 次。

关注

评论

发布
暂无评论

换个姿势访问openGauss?(5)使用编程语言访问

moremorecode

换个姿势访问openGauss?(6)使用编程语言访问

moremorecode

换个姿势访问openGauss?(7)使用编程语言访问

moremorecode

Mac数据库管理软件:Navicat Premium v17.0.1 中文激活版

你的猪会飞吗

Mac软件下载站 mac破解软件下载

基于LangChain手工测试用例生成工具

测试人

软件测试

附PPT | 数造科技参与编制的《面向人工智能的数据治理实践指南(1.0)》正式发布!

数造万象

大数据 数据治理 DataOps #人工智能 技术指南

换个姿势访问openGauss?(3)使用编程语言访问

moremorecode

换个姿势访问openGauss?(4)使用编程语言访问

moremorecode

DBA联创:区块链的架构正在不断趋同

TechubNews

校园圈子小程序,大学校园圈子,三端交付,源码交付,支持二开

DUOKE七七

小程序 开源 源码 交友

Apifox 更新|定时任务、内网自部署服务器运行接口定时导入、数据库 SSH 隧道连接

Apifox

程序员 前端 测试 后端 Apifox

TDengine 签约昆船电子,助力某卷烟厂打叶复烤线技改

TDengine

数据库 tdengine 时序数据库

【数据采集】亮数据浏览器、亮网络解锁器实战指南

阿Q说代码

数据采集 亮数据浏览器 亮网络解锁器

华为云数据库斯享会上海站,NineData技术总监薛晓乐主题分享:DevOps最佳实践

NineData

数据库 DevOps 华为云 NineData 华为云数据库斯享会

培训心得 | 来自一线的声音,AntDB数据库ACP培训认证怎么样?

亚信AntDB数据库

AntDB 国产数据库 AntDB数据库 企业号 6 月 PK 榜

重磅!免费一键批量混剪工具它来了,一天上万短视频不是梦

程序那些事

工具 AIGC

换个姿势访问openGauss?(8)使用编程语言访问

moremorecode

STC89C52+DS18B20实现环境温度检测(数码管显示温度)

DS小龙哥

6 月 优质更文活动

奇怪的缓存一致性问题

阿里技术

缓存 缓存一致性 故障排查 诊断 排查

航空电子制造业企业数字化转型:智能工厂建设

天津汇柏科技有限公司

数字化转型 智能工厂 航空航天 电子电器制造业

换个姿势访问openGauss?(2)使用编程语言访问

moremorecode

opengauss

淘宝/天猫按图搜索商品新方法:taobao.item_search_img API返回值深度解读

技术冰糖葫芦

API Explorer API boy api 货币化 API 文档

暗战升级,Databricks收购Tabular,Iceberg社区陷入动荡_大数据_苏郡城_InfoQ精选文章