【ArchSummit】如何通过AIOps推动可量化的业务价值增长和效率提升?>>> 了解详情
写点什么

剑拔弩张的 Databricks 和 Snowflake,连用个 Apache Iceberg 都能掐架!

  • 2023-07-02
    北京
  • 本文字数:2791 字

    阅读完需:约 9 分钟

剑拔弩张的 Databricks 和Snowflake,连用个Apache Iceberg 都能掐架!

这几天,全球两大数据平台巨头 Snowflake、Databricks 均召开了各自的年度大会,这两个技术会议对于做数据系统的从业者来说非常有吸引力。虽然 AI 尽管火爆,但从会议内容来看,竞争的关键还是在数据,因此我们重点关注了两者在数据湖仓技术方向上的发展。这两家都在使用 Apache Iceberg,值得注意的是,有分析师指出,企业需要能同时支持数据湖和数据仓库的单一平台,但目前此类技术还没有真正实现。


随着本地确认支持 Apache Iceberg 和 Hudi 两种表格式,Databricks 正努力扩大其数据湖方案的市场吸引力、巩固在机器学习领域的主导地位,并希望将业务延伸至数据仓库类工作负载领域。


与此同时,其竞争对手 Snowflake 也推出了 Iceberg Tables 更新,宣称要进一步打破数据孤岛。


两家公司都宣称将支持非结构化数据湖式工作负载,可在同一系统之内实现基于 SQL 的数据仓库报告和分析,同时运用分析引擎处理保存在其他位置的数据。在 Delta Lake 3.0 中,Databricks 推出了所谓通用格式(UniForm),允许以 Apache Iceberg 或 Apache Hudi 的格式读取存储在 Delta 中的数据。


就在本届旧金山年度供应商盛会正式召开的几天之前,Databricks 公司营销副总裁 Joel Minnick 证实,Delta 是“在开源经历方面参与时间最长、得到广大企业客户好评的智能湖仓格式。”


所有三种表格式均基于 Apache Parquet 数据格式。他提到,“其中的区别在于,这些格式各自会创建出相似、但又不尽相同的元数据”,从而影响数据向应用程序和分析工作负载的表达方式。


结果就是,Delta、Hudi 和 Iceberg 之间存在一定的不兼容性。为了帮助客户简化问题,Databricks 特意为此推出了新的通用格式,简称 Uniform。


Minnick 表示,UniForm 会自动生成全部三种格式的元数据,并自动识别用户想要读取或写入的对应格式。


“之后,它会自动帮用户转换出系统需要的适当元数据。也就是说,只要在 Delta Lake 上构建,那就是在为全部三种格式做构建,直接消除智能湖仓格式带来的复杂性、转译工作完全由不同的连接器来完成。”


Apache Iceberg 是一种开放表格式,专为大规模分析工作负载而设计,同时支持 Spark、Trino、Flink、Presto、Hive 和 Impala 等查询引擎。在 Snowflake、谷歌和 Cloudera 去年宣布支持之后,Iceberg 过去几年来积蓄的生态力量终于成型。也有不少专业厂商参与其中,包括 Dremio、Starburst 和 Tabular——其中 Tabular 是 Iceberg 项目团队当初效力于 Netflix 时的开发成果。


事实上,Databricks 公司联合创始人兼 CEO Ali Ghodsi 去年曾在采访中表示,Iceberg、Hudi 和 Delta 这三种表格式其实非常相似,而且很可能在大多数供应商处得到全面应用。今年,SAP 和微软都宣布将支持 Delta,且两家公司均表示将及时解决 Iceberg 和 Hudi 之间的数据格式冲突。


剑拔弩张


但作为 Iceberg 的坚定支持者,Databricks 的最大竞争对手 Snowflake 当然不可能毫无行动,而是选择在同一周内举行了自己的年度聚会。


这家云数据仓库与平台企业的市场估值一度达到过惊人的 1200 亿美元,此次宣布了其 Iceberg Tables 内部预览版。此版本号称将打破数据孤岛,只是并不支持 Hudi 和 Delta 格式。


该公司称,组织可以在自己的存储系统中以 Apache Iceberg 格式处理数据,且无论存储数据是否由 Snowflake 工具进行管理,均可使用该公司提供的性能管理与治理工具。


Snowflake 还宣布在 AWS 上推出原生应用程序框架的开放预览版。其思路是帮助开发人员构建和测试 Snowflake Native Apps,借此运用 Snowflake 中的现有数据。据称,配套软件市场上现已有超过 25 款应用可供使用。


Amalgam Insights 公司 CEO 兼首席分析师 Hyun Park 表示,在数据湖领域,Iceberg、Hudi 和 Delta 格式之间将必有一战。


“目前,不少第三方正在与 Iceberg 合作,认为其是最易于使用的数据格式。而且坦率地讲,企业客户也害怕赋予 Databricks 太大的权力。”


然而,Databricks 同时支持这三种格式的举措,意味着其也可以为 Iceberg 客户——也就是 Snowflake 和 Cloudera 的客户——提供服务。


“这是一种颇为明智的方式,能够跨越全部数据湖格式实现智能分析。”


Park 还认为,Iceberg 虽然在技术普及度上更胜一筹,但在性能层面却面临挑战。与此同时,投资者则希望 Snowflake 能够向其他领域扩张自己的力量。Park 表示,“Snowflake 承载着市场估值和股东的期待,因此正努力在应用开发和机器学习等各类平台上充当数据解决方案。”


咨询公司 Forrester 首席分析师 Mike Gualtieri 对 Snowflake 在第三方应用领域的表现则并不满意。“我认为这没什么说服力,因为与企业所需的完整应用解决方案相比,Snowflake 这种专注于应用数据的思路太过狭义、甚至可以说是微不足道。”但他也承认,Snowflake 确实在数据湖方面取得了进展,这对供应商和喜欢该平台的客户来说肯定是个好消息。


过去几年来,数据湖和智能湖仓之间的边界开始日渐模糊。Databricks 率先创造了智能湖仓的概念,并在其平台上提供 SQL 和类似商务智能的查询功能;而 Snowflake 则开始支持非结构化数据。


Gualtieri 指出,“这两种技术之间存在冲突。企业最需要的是统一的平台,所以 Snowflake 不能单纯宣传自己有多么优势、有多像 Teradata。甚至连处理非结构化数据的能力和机器学习技术都没那么重要,毕竟这些都能通过合作伙伴关系来填补。”


最重要的是,企业客户需要的是单一平台,但用户的具体期望和技术间的割裂现状正阻碍着统一市场的形成。


Gualtieri 解释道,“Teradata 和 Snowflake 确实类似:它们都具备一定的机器学习功能,大家可以用它们满足很多需求。Databricks 的功能也确实要丰富得多。但对于那些已经习惯了在 Spotfire 或者 Tableau 中获取报告的商务智能用户来说,他们希望执行查询后就立即得到结果,而不是像查询数据湖那样等待三秒甚至更久。目前,双方在功能和技术水平方面仍然存在差距,短时间内根本不可能实现统一。”


目前,很多组织其实是数据管理与数据分析双线并进。Snowflake 和 Databricks 均拥有大量跨国客户,前者的知名主顾有卡夫亨氏食品集团、康卡斯特和 EDF Energy;后者则坐拥丰田、壳牌和同为 Snowflake 客户的 AT&T。


Gualtieri 表示,数据湖 / 智能湖仓之间的鸿沟恐怕需要三年时间才能打破,就是说到那时双方才能提供对方的全套功能。在这段时间之内,Snowflake 与 Databricks 两派的冲突恐怕还将持续。


参考链接:


https://www.theregister.com/2023/06/29/databricks_snowflake_tables/

今日荐文

OpenAI 又赢麻了!谷歌 DeepMind 创始人刚称 Gemini 能碾压 GPT-4,OpenAI 的挖人大计就出炉了


用AIGC重构后的智能客服,能否淘到大模型时代的第一桶金?


AIGC 浪潮下,如何推动企业应用及落地?


谷歌警告自家员工:不要使用 Bard 生成的代码


引领手机向“全知全能”进化!iOS版ChatGPT推出联网模式:集成Bing搜索功能,仅对付费用户开放


瞄准 B 端!腾讯云推多款行业大模型解决方案,打造模型应用商店


2023-07-02 17:363526

评论

发布
暂无评论
发现更多内容

电商系统微服务

贯通

架构实战营

Flink集成hive测试及生产规划

一弦思华年

大数据 hive 实时数仓 数仓 flink 执行

密码学系列之:blowfish对称密钥分组算法

程序那些事

加密解密 密码学 程序那些事 密码学和算法

Redis 五种数据结构以及三种高级数据结构解析

蘑菇睡不着

Java redis

优秀中层管理者所具备的特征

石云升

读书笔记 6月日更

架构训练营模块6作业

Neil43

架构训练营

在线crontab表达式执行时间计算工具

入门小站

工具分享

鸿蒙究竟是什么?

Nydia

自然语言处理的发展

Qien Z.

自然语言处理 6月日更

模块六 作业

夏日

架构实战营

Nginx简单属性和使用总结

赵镇

架構實戰營 - 模塊 6 作業

Frank Yang

架构实战营

聊聊 Redis 过期键删除策略

蘑菇睡不着

Java redis

活久见!低访问量竟然也能导致系统问题

三石

mycat

【Vue2.x 源码学习】第二十篇 - 使用真实节点替换原始节点

Brave

源码 vue2 6月日更

架构实战营 模块六课后作业

iProcess

架构实战营

【21-13】PowerShell 运算符

耳东@Erdong

PowerShell 6月日更

聊聊 Redis 内存淘汰策略

蘑菇睡不着

Java redis

架构实战营模块6课后作业

大肚皮狒狒

Cookie常见面试题

悟空聊架构

缓存 面试 Cookie 6月日更

超详细Redis数据结构底层实现原理介绍

蘑菇睡不着

Java redis

模块六:课后作业

菲尼克斯

架构实战营

顶级程序员都是如何诞生的?

Nydia

话题讨论

架构实战营模块 6

阿体

架构实战营 模块六作业

Dylan

架构实战营

从 Flutter 和前端角度出发,聊聊单线程模型下如何保证 UI 流畅性

魅影

大前端 事件驱动 Event iOS 知识体系

ES6之set方法

法医

大前端 ES6 6月日更

Flink State 和 Fault Tolerance(三)

Alex🐒

flink 翻译 flink1.13

电商平台微服务拆分(简化版)

白发青年

架构实战营

Linux之mkdir命令

入门小站

Linux

第6模块作业

高亮

架构训练营

剑拔弩张的 Databricks 和Snowflake,连用个Apache Iceberg 都能掐架!_数据湖仓_Lindsay Clark_InfoQ精选文章