2024 可信数据库发展大会报名通道已开启!! 了解详情
写点什么

暗战升级,Databricks 收购 Tabular,Iceberg 社区陷入动荡

  • 2024-06-06
    北京
  • 本文字数:2726 字

    阅读完需:约 9 分钟

暗战升级,Databricks收购Tabular,Iceberg社区陷入动荡

6 月 17 日,极客时间《企业级 Agents 开发实战营》正式上线,10 周掌握企业级 Agents 从设计、开发到部署全流程。

事件


Databricks 收购了 Tabular。字少事大。


紧接着,最近刚刚发生的事件,Iceberg 的 Contributor Kanou Natsukawa 呼吁 Icerberg 的 PMCChair 辞职,核心他的担忧是存在利益冲突。



Kanou 意有所指,担心的是什么


为什么 Kanou 有这个担心?他其实真正担心的是,鉴于 Tabular 是 Iceberg“背后”的商业公司,有多位 Iceberg 的 PMC 在 Tabular 任职。那么这次收购之后,很有可能 Databricks 会完全能够控制 Tabular 和 Iceberg,及其标准。“标准”——真正的担忧是 Databricks 控制 Iceberg 标准的风险。


一箭双雕:Databricks 的战略意图


Databricks 此举的战略意图不难看出。一方面,他们希望发展自家的 DeltaLake,因为 DeltaLake 与 Iceberg 是直接竞争关系;另一方面,这也是在打击竞争对手 Snowflake。Snowflake 全面拥抱开放的湖仓标准,而 Iceberg 已经成为业界事实标准之一。通过收购 Tabular,Databricks 可以间接控制 Iceberg,从而在数据湖格式标准的竞争中占据优势地位。


历史总是相似的


当年 Oracle 收购 Mysql 是这个故事的翻版,Kanou 担心的正是这样的事情再次发生在 Iceberg 上。


MySQL 原开发者为瑞典的 MySQLAB 公司,该公司于 2008 年被昇阳微系统(Sun Microsystems)收购。2009 年,甲骨文公司(Oracle)收购昇阳微系统公司,MySQL 成为 Oracle 旗下产品。

(引文:https://zh.wikipedia.org/zh-hans/MySQL


这一事件在当时引起了开源社区的广泛关注和争议。时至今日,MySQL 仍是活跃的开源项目,但在 Oracle 的影响下,它的发展方向和节奏无疑发生了变化。Oracle 对 MySQL 的控制,也引发了开源社区对大公司介入开源项目的广泛讨论和反思。


Kanou 对 Databricks 收购 Tabular 的担忧,与当年社区对 Oracle 收购 MySQL 的顾虑如出一辙。历史似乎在重演,只是这一次,舞台从开源数据库转移到了开源数据湖存储标准。


Databricks 的意图可以说是明牌了。


在之前关于 Redshift 的采访中,Databricks 的 VP 明确表达了对数据存储格式的“野心”



(引文:https://inpractise.com/articles/databricks-melting-the-snow


能够看到两强相争之时,都看中了数据湖结构化存储标准这个兵家必争之地。为什么会这样?


因为传统的数据库引擎和未来 AI 模型多模态等引擎,去处理海量的额数据是一个多样性的处理过程。一方面数据是海量的,很难做到将海量的数据“喂”给不同的引擎,这样耗费的“数据搬运”或 ETL 成本太高;另一方面处理数据的引擎越来越多样。所以,必然会需要一个革命性地架构的改变。那么,今天 Snowflake 和 Databricks 的的数据的开放性格式标准或将是决定未来各方能走多远的一个关键技术。如果 Databricks 真的控制了 Iceberg,那么也就意味着很有可能 Icerberg 的发展会减缓,进而影响到支持 Iceberg 的 Snowflake。


云器科技在此前的发布会中详细解释了 AI 时代数据架构的发展趋势:


AI 时代的计算与存储将是 M 对 N 的关系架构,区别于一直以来数据库的计算和存储绑定的 1 对 1 关系



云器科技此前的分享来看,湖仓一体会成为主流架构,而 Iceberg 已成为事实标准。


下一代的数据架构将会是:

  • 一套数据,统一的元数据中心,具备*一致*性(其他层次上的数据用 Cache 抽象)

  • 开放性,数据格式公开可访问

  • 可插拔性,上层引擎/应用可以灵活的插在 Lakehouse 上(这对于新兴的 AI 引擎/应用至关重要)


关涛(云器科技联合创始人及 CTO)此前分享到,“开放的存储和元数据支持多引擎协作是 Data+AI 平台的演进方向。”


据此,不难理解 Snowflake 和 Databricks 会为此不惜重金布局“对线”。


Snowflake 和 Databricks 的暗战


之前 RyanBlue,ApacheIcebergPMCChair 在 IcebergSummit2024 中谈及开放的存储格式正在掀起一场“革命”,并暗戳戳地阴阳了 DeltaLake。意思是本来没想把 DeltaLake 算进来,但想了想还是算上吧。满脸的勉强。


we had this surprise realization a couple years ago when Snowflake and Redshift and other commercial data warehouses started adding support for Apache Iceberg. What's going on there?Why are they doing that?In order to answer that question...I think the central trend is that projects like Apache Iceberg, I would actually include Deltain this as well, have unlocked shared data warehouse storage.

(引自:“Iceberg Summit 2024 Keynote:The Quite Revolution”)


这次收购事件,可以看出 Databricks 毫不掩饰的讲出想釜底抽薪解决问题,为自己的 DeltaLake 开路


(图:Databricks VP 的演讲)


这场竞争双方是不惜代价全力以赴的。在 DatabricksVP 之前的一段访谈,谈到 Iceberg 和 Delta 的直接竞争,是一场非常决定性的战争,用了“WAR”这个词。


并非技术之争,而是“开放”与“控制”之争


Snowflake 在 2024/6/3 的发布会 Keynote 分享,数据是 AI 的基础设施......以前是数据送给引擎去处理,未来 AI 时代是多种引擎,包括 AI 引擎,计算引擎要趋向数据。Data Centralization 的理念是方向。


"The AI Data Cloud is lighting up every corner of the enterprise."

"Data... is the foundation of AI"

--Sridhar Ramaswamy, Snowflake CEO


(图:Snowflake Summit 2024 Keynote)


Snowflake 的产品经理 James Malone 在今天对 Tabular 的收购事件也发布了他的看法,他认为 Databricks 收购 Tabular 彰显了 Databricks 的“独占”与“控制”思维:

  • 独占而非共创

  • 谋求“全面控制”而非支持开放的技术社区



“开放标准本应由社区共同创建和维护,就像 Snowflake 新发布的 Polaris 那样,旨在促进生态共存。而 Databricks 的做法却恰恰相反,他们试图通过收购的方式来控制 Iceberg 标准,这种‘不能打败就购’的心态,与开源精神背道而驰。”



我们保持关注,希望 Iceberg 和技术社区能挺住


资本的力量,如果用在助力技术研发和应用落地,可以推动行业进步,造福社会,是“TechforGood”;而如果资本用于收购打压竞争对手时,就成了一种“资本之恶”。


Iceberg 能否在 Databricks 的控制下继续保持开放、中立,现在还是一个未知数。业界对此表示担忧,但同时也寄望于 Iceberg 社区能够坚守开源初心,维护项目的独立性。Iceberg 的命运,或许将成为资本与开源技术博弈的一个缩影。


(图:Iceberg 技术社区的讨论)


下周,Databricks 将召开年度发布会,而 Snowflake 的发布会也正在如火如荼地进行中。虽然两家巨头今年没有像去年那样选在同一时间异地开幕,但这丝毫不会减弱他们在数据领域的竞争激烈程度。相反,随着 Databricks 收购 Tabular 事件的发酵,两个海外数据平台巨头之争只会愈演愈烈。


人工智能正处在聚光灯的中心,各路科技公司都在追逐 AI 的绚丽光环。但在光环的背后,一场数据格式之争——关乎未来十年数据格式标准之争在暗处正在上演。


作者:苏郡城,云器科技运营总监,云计算大数据领域专家。曾主导阿里云国际业务数据体系建设,十余年一线数据化运营实战,助力企业实现数字化增长,热衷于技术社区分享。

公众号推荐:

AGI 概念引发热议。那么 AGI 究竟是什么?技术架构来看又包括哪些?AI Agent 如何助力人工智能走向 AGI 时代?现阶段营销、金融、教育、零售、企服等行业场景下,AGI应用程度如何?有哪些典型应用案例了吗?以上问题的回答尽在《中国AGI市场发展研究报告 2024》,欢迎大家扫码关注「AI前线」公众号,回复「AGI」领取。

2024-06-06 11:4217610
用户头像
鲁冬雪 InfoQ 策划主编

发布了 347 篇内容, 共 212.6 次阅读, 收获喜欢 280 次。

关注

评论

发布
暂无评论

文心一言 VS 讯飞星火 VS chatgpt (86)-- 算法导论8.2 3题

福大大架构师每日一题

福大大架构师每日一题

重新定义内容创作和教育的新范式

百度开发者中心

人工智能 文心一言 文心大模型‘

麒麟云容器运行时优化之容器停止优化

麒麟云

Kubernetes 云原生 银河麒麟云原生操作系统

服务器使用必备条件、操作步骤及实践步骤详解

天翼云开发者社区

服务器

OpenHarmony使用ArkUI Inspector分析布局

OpenHarmony开发者

OpenHarmony

业务不想停机,就得这么实现MongoDB迁移

NineData

mongodb 数据迁移 NineData MongoDB迁移 全量数据迁移

AI应用如何进行测试?

互联网工科生

人工智能 AI

开发指导—利用CSS动画实现HarmonyOS动效(二)

HarmonyOS开发者

HarmonyOS

公众期待开放的自然语言处理神器

百度开发者中心

人工智能 ChatGPT 文心一言

做等保测评的公司有多少家?哪里可以查到?

行云管家

网络安全 等级保护 等保测评 等保测评机构 行云堡垒

细数2019-2023年CWE TOP 25 数据,看软件缺陷的防护

华为云开发者联盟

安全 后端 华为云 华为云开发者联盟 企业号9月PK榜

程序员的五种实用工具

这我可不懂

工具 编码 代码库 RegExp

“AI+算力”为出海企业打上了一剂“强心针”

千流出海

媒体 采访 出海

软件测试/测试开发丨Selenium Web自动化多浏览器处理

测试人

Python 软件测试 自动化测试 测试开发 selenium

UML建模推荐Astah Professional for Mac激活最新

mac大玩家j

Mac软件 建模软件 建模工具

Kruise Rollout:基于 Lua 脚本的可扩展流量调度方案

阿里巴巴云原生

阿里云 云原生

数字先锋|携手九江市自然资源局,天翼云助力自然资源管理走向“智治”新路

天翼云开发者社区

人工智能 云计算

在线找 K8s 学习搭子,急!

阿里巴巴云原生

阿里云 云原生

你应该知道的几个大数据平台相关术语

行云管家

数据中台 数据安全 大数据平台

引领未来,挑战与机遇并存

百度开发者中心

人工智能 图像识别 文心大模型

时尚行业的前沿与挑战

百度开发者中心

人工智能 ChatGPT 生成式AI 文心一言

ClickHouse在腾讯游戏营销效果分析中的探索实践

腾讯云大数据

Clickhouse

入坑ThreadLocal,这一篇文章就够了

树上有只程序猿

Java ThreadLocal

蚂蚁集团混沌工程 ChaosMeta V0.5 版本发布

ChaosMeta

云原生 测试 混沌工程 容灾 攻防演练

服务器显卡:驱动高性能计算和人工智能应用

天翼云开发者社区

服务器

【玩转鲲鹏DevKit系列】如何快速迁移软件包?

华为云开发者联盟

开发 华为云 鲲鹏 华为云开发者联盟 企业号9月PK榜

暗战升级,Databricks收购Tabular,Iceberg社区陷入动荡_大数据_苏郡城_InfoQ精选文章