写点什么

剑拔弩张的 Databricks 和 Snowflake,连用个 Apache Iceberg 都能掐架!

  • 2023-07-02
    北京
  • 本文字数:2791 字

    阅读完需:约 9 分钟

剑拔弩张的 Databricks 和Snowflake,连用个Apache Iceberg 都能掐架!

这几天,全球两大数据平台巨头 Snowflake、Databricks 均召开了各自的年度大会,这两个技术会议对于做数据系统的从业者来说非常有吸引力。虽然 AI 尽管火爆,但从会议内容来看,竞争的关键还是在数据,因此我们重点关注了两者在数据湖仓技术方向上的发展。这两家都在使用 Apache Iceberg,值得注意的是,有分析师指出,企业需要能同时支持数据湖和数据仓库的单一平台,但目前此类技术还没有真正实现。


随着本地确认支持 Apache Iceberg 和 Hudi 两种表格式,Databricks 正努力扩大其数据湖方案的市场吸引力、巩固在机器学习领域的主导地位,并希望将业务延伸至数据仓库类工作负载领域。


与此同时,其竞争对手 Snowflake 也推出了 Iceberg Tables 更新,宣称要进一步打破数据孤岛。


两家公司都宣称将支持非结构化数据湖式工作负载,可在同一系统之内实现基于 SQL 的数据仓库报告和分析,同时运用分析引擎处理保存在其他位置的数据。在 Delta Lake 3.0 中,Databricks 推出了所谓通用格式(UniForm),允许以 Apache Iceberg 或 Apache Hudi 的格式读取存储在 Delta 中的数据。


就在本届旧金山年度供应商盛会正式召开的几天之前,Databricks 公司营销副总裁 Joel Minnick 证实,Delta 是“在开源经历方面参与时间最长、得到广大企业客户好评的智能湖仓格式。”


所有三种表格式均基于 Apache Parquet 数据格式。他提到,“其中的区别在于,这些格式各自会创建出相似、但又不尽相同的元数据”,从而影响数据向应用程序和分析工作负载的表达方式。


结果就是,Delta、Hudi 和 Iceberg 之间存在一定的不兼容性。为了帮助客户简化问题,Databricks 特意为此推出了新的通用格式,简称 Uniform。


Minnick 表示,UniForm 会自动生成全部三种格式的元数据,并自动识别用户想要读取或写入的对应格式。


“之后,它会自动帮用户转换出系统需要的适当元数据。也就是说,只要在 Delta Lake 上构建,那就是在为全部三种格式做构建,直接消除智能湖仓格式带来的复杂性、转译工作完全由不同的连接器来完成。”


Apache Iceberg 是一种开放表格式,专为大规模分析工作负载而设计,同时支持 Spark、Trino、Flink、Presto、Hive 和 Impala 等查询引擎。在 Snowflake、谷歌和 Cloudera 去年宣布支持之后,Iceberg 过去几年来积蓄的生态力量终于成型。也有不少专业厂商参与其中,包括 Dremio、Starburst 和 Tabular——其中 Tabular 是 Iceberg 项目团队当初效力于 Netflix 时的开发成果。


事实上,Databricks 公司联合创始人兼 CEO Ali Ghodsi 去年曾在采访中表示,Iceberg、Hudi 和 Delta 这三种表格式其实非常相似,而且很可能在大多数供应商处得到全面应用。今年,SAP 和微软都宣布将支持 Delta,且两家公司均表示将及时解决 Iceberg 和 Hudi 之间的数据格式冲突。


剑拔弩张


但作为 Iceberg 的坚定支持者,Databricks 的最大竞争对手 Snowflake 当然不可能毫无行动,而是选择在同一周内举行了自己的年度聚会。


这家云数据仓库与平台企业的市场估值一度达到过惊人的 1200 亿美元,此次宣布了其 Iceberg Tables 内部预览版。此版本号称将打破数据孤岛,只是并不支持 Hudi 和 Delta 格式。


该公司称,组织可以在自己的存储系统中以 Apache Iceberg 格式处理数据,且无论存储数据是否由 Snowflake 工具进行管理,均可使用该公司提供的性能管理与治理工具。


Snowflake 还宣布在 AWS 上推出原生应用程序框架的开放预览版。其思路是帮助开发人员构建和测试 Snowflake Native Apps,借此运用 Snowflake 中的现有数据。据称,配套软件市场上现已有超过 25 款应用可供使用。


Amalgam Insights 公司 CEO 兼首席分析师 Hyun Park 表示,在数据湖领域,Iceberg、Hudi 和 Delta 格式之间将必有一战。


“目前,不少第三方正在与 Iceberg 合作,认为其是最易于使用的数据格式。而且坦率地讲,企业客户也害怕赋予 Databricks 太大的权力。”


然而,Databricks 同时支持这三种格式的举措,意味着其也可以为 Iceberg 客户——也就是 Snowflake 和 Cloudera 的客户——提供服务。


“这是一种颇为明智的方式,能够跨越全部数据湖格式实现智能分析。”


Park 还认为,Iceberg 虽然在技术普及度上更胜一筹,但在性能层面却面临挑战。与此同时,投资者则希望 Snowflake 能够向其他领域扩张自己的力量。Park 表示,“Snowflake 承载着市场估值和股东的期待,因此正努力在应用开发和机器学习等各类平台上充当数据解决方案。”


咨询公司 Forrester 首席分析师 Mike Gualtieri 对 Snowflake 在第三方应用领域的表现则并不满意。“我认为这没什么说服力,因为与企业所需的完整应用解决方案相比,Snowflake 这种专注于应用数据的思路太过狭义、甚至可以说是微不足道。”但他也承认,Snowflake 确实在数据湖方面取得了进展,这对供应商和喜欢该平台的客户来说肯定是个好消息。


过去几年来,数据湖和智能湖仓之间的边界开始日渐模糊。Databricks 率先创造了智能湖仓的概念,并在其平台上提供 SQL 和类似商务智能的查询功能;而 Snowflake 则开始支持非结构化数据。


Gualtieri 指出,“这两种技术之间存在冲突。企业最需要的是统一的平台,所以 Snowflake 不能单纯宣传自己有多么优势、有多像 Teradata。甚至连处理非结构化数据的能力和机器学习技术都没那么重要,毕竟这些都能通过合作伙伴关系来填补。”


最重要的是,企业客户需要的是单一平台,但用户的具体期望和技术间的割裂现状正阻碍着统一市场的形成。


Gualtieri 解释道,“Teradata 和 Snowflake 确实类似:它们都具备一定的机器学习功能,大家可以用它们满足很多需求。Databricks 的功能也确实要丰富得多。但对于那些已经习惯了在 Spotfire 或者 Tableau 中获取报告的商务智能用户来说,他们希望执行查询后就立即得到结果,而不是像查询数据湖那样等待三秒甚至更久。目前,双方在功能和技术水平方面仍然存在差距,短时间内根本不可能实现统一。”


目前,很多组织其实是数据管理与数据分析双线并进。Snowflake 和 Databricks 均拥有大量跨国客户,前者的知名主顾有卡夫亨氏食品集团、康卡斯特和 EDF Energy;后者则坐拥丰田、壳牌和同为 Snowflake 客户的 AT&T。


Gualtieri 表示,数据湖 / 智能湖仓之间的鸿沟恐怕需要三年时间才能打破,就是说到那时双方才能提供对方的全套功能。在这段时间之内,Snowflake 与 Databricks 两派的冲突恐怕还将持续。


参考链接:


https://www.theregister.com/2023/06/29/databricks_snowflake_tables/

今日荐文

OpenAI 又赢麻了!谷歌 DeepMind 创始人刚称 Gemini 能碾压 GPT-4,OpenAI 的挖人大计就出炉了


用AIGC重构后的智能客服,能否淘到大模型时代的第一桶金?


AIGC 浪潮下,如何推动企业应用及落地?


谷歌警告自家员工:不要使用 Bard 生成的代码


引领手机向“全知全能”进化!iOS版ChatGPT推出联网模式:集成Bing搜索功能,仅对付费用户开放


瞄准 B 端!腾讯云推多款行业大模型解决方案,打造模型应用商店


2023-07-02 17:364465

评论

发布
暂无评论
发现更多内容

华为云会议,助力企业高效办公

秃头也爱科技

华为云会议,总有一种场景满足你的需求

科技说

数字化办公?选云桌面就对了!

科技之光

头部效应明显,中小厂商「闷赚」的 Dating 赛道

融云 RongCloud

社交 虚拟

自动化测试技术笔记(三):如何编写技术方案

老张

自动化测试 技术方案

对比PyTorch、TensorFlow、JAX、Theano,我发现都在关注两大问题

OneFlow

人工智能 深度学习 函数转换

华为云桌面,开启云上高效办公之旅!

清欢科技

云办公成趋势,华为云桌面全方位保障企业安全

科技之光

mysql数据库运维常用的shell脚本

@下一站

12月日更 12月月更

华为云桌面之下的“冰山”:技术底座x繁荣生态加速模式进化

IT科技苏辞

华为云会议,让会议更智能

秃头也爱科技

华为云会议助力政企用户提升沟通效率

科技说

低成本、高效率!华为云桌面助力企业数字化转型

清欢科技

云上办公,且看华为云桌面如何加速企业数字化发展之路?

科技之光

数字云办公连续7年领跑,华为云桌面优势突显!

科技之光

华为云会议,更专业“会”更好

秃头也爱科技

超高清设计师云工作站,设计可以更高效

清欢科技

华为云会议——安全得多,高效得很

秃头也爱科技

网络安全实战之植入后门程序

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 漏洞挖掘

「实操」适配 NebulaGraph 新版本与压测实践

NebulaGraph

图数据库

华为云会议好评如潮的背后,竟然暗藏这么多黑科技!

科技说

Verilog模块例化

芯动大师

Verilog语法 Verilog例化模块 Verilog教程

【JWT】jwt令牌研究

No8g攻城狮

JWT\ JWT

超高清设计师云工作站,为设计企业护航

清欢科技

HTTP的状态码

穿过生命散发芬芳

HTTP 12月月更

华为云桌面,一站式云上数字化创作深度解读

IT科技苏辞

webAssembly on server side 的应用场景

磊吐槽

云原生 webassembly

安全灵活,华为云桌面成为数字化办公最佳搭档

清欢科技

云上办公,还得是华为云桌面的一站式云上工作站

科技之光

2022-12-21:uifd/ui-for-docker是docker的web可视化工具。请问部署在k3s中,yaml文件如何写?

福大大架构师每日一题

Docker 云原生 k8s k3s 福大大

我在编码过程使用Jenkins自动化的姿势

大东(AIP智能体运营专员)

剑拔弩张的 Databricks 和Snowflake,连用个Apache Iceberg 都能掐架!_数据湖仓_Lindsay Clark_InfoQ精选文章