NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

剑拔弩张的 Databricks 和 Snowflake,连用个 Apache Iceberg 都能掐架!

  • 2023-07-02
    北京
  • 本文字数:2791 字

    阅读完需:约 9 分钟

剑拔弩张的 Databricks 和Snowflake,连用个Apache Iceberg 都能掐架!

这几天,全球两大数据平台巨头 Snowflake、Databricks 均召开了各自的年度大会,这两个技术会议对于做数据系统的从业者来说非常有吸引力。虽然 AI 尽管火爆,但从会议内容来看,竞争的关键还是在数据,因此我们重点关注了两者在数据湖仓技术方向上的发展。这两家都在使用 Apache Iceberg,值得注意的是,有分析师指出,企业需要能同时支持数据湖和数据仓库的单一平台,但目前此类技术还没有真正实现。


随着本地确认支持 Apache Iceberg 和 Hudi 两种表格式,Databricks 正努力扩大其数据湖方案的市场吸引力、巩固在机器学习领域的主导地位,并希望将业务延伸至数据仓库类工作负载领域。


与此同时,其竞争对手 Snowflake 也推出了 Iceberg Tables 更新,宣称要进一步打破数据孤岛。


两家公司都宣称将支持非结构化数据湖式工作负载,可在同一系统之内实现基于 SQL 的数据仓库报告和分析,同时运用分析引擎处理保存在其他位置的数据。在 Delta Lake 3.0 中,Databricks 推出了所谓通用格式(UniForm),允许以 Apache Iceberg 或 Apache Hudi 的格式读取存储在 Delta 中的数据。


就在本届旧金山年度供应商盛会正式召开的几天之前,Databricks 公司营销副总裁 Joel Minnick 证实,Delta 是“在开源经历方面参与时间最长、得到广大企业客户好评的智能湖仓格式。”


所有三种表格式均基于 Apache Parquet 数据格式。他提到,“其中的区别在于,这些格式各自会创建出相似、但又不尽相同的元数据”,从而影响数据向应用程序和分析工作负载的表达方式。


结果就是,Delta、Hudi 和 Iceberg 之间存在一定的不兼容性。为了帮助客户简化问题,Databricks 特意为此推出了新的通用格式,简称 Uniform。


Minnick 表示,UniForm 会自动生成全部三种格式的元数据,并自动识别用户想要读取或写入的对应格式。


“之后,它会自动帮用户转换出系统需要的适当元数据。也就是说,只要在 Delta Lake 上构建,那就是在为全部三种格式做构建,直接消除智能湖仓格式带来的复杂性、转译工作完全由不同的连接器来完成。”


Apache Iceberg 是一种开放表格式,专为大规模分析工作负载而设计,同时支持 Spark、Trino、Flink、Presto、Hive 和 Impala 等查询引擎。在 Snowflake、谷歌和 Cloudera 去年宣布支持之后,Iceberg 过去几年来积蓄的生态力量终于成型。也有不少专业厂商参与其中,包括 Dremio、Starburst 和 Tabular——其中 Tabular 是 Iceberg 项目团队当初效力于 Netflix 时的开发成果。


事实上,Databricks 公司联合创始人兼 CEO Ali Ghodsi 去年曾在采访中表示,Iceberg、Hudi 和 Delta 这三种表格式其实非常相似,而且很可能在大多数供应商处得到全面应用。今年,SAP 和微软都宣布将支持 Delta,且两家公司均表示将及时解决 Iceberg 和 Hudi 之间的数据格式冲突。


剑拔弩张


但作为 Iceberg 的坚定支持者,Databricks 的最大竞争对手 Snowflake 当然不可能毫无行动,而是选择在同一周内举行了自己的年度聚会。


这家云数据仓库与平台企业的市场估值一度达到过惊人的 1200 亿美元,此次宣布了其 Iceberg Tables 内部预览版。此版本号称将打破数据孤岛,只是并不支持 Hudi 和 Delta 格式。


该公司称,组织可以在自己的存储系统中以 Apache Iceberg 格式处理数据,且无论存储数据是否由 Snowflake 工具进行管理,均可使用该公司提供的性能管理与治理工具。


Snowflake 还宣布在 AWS 上推出原生应用程序框架的开放预览版。其思路是帮助开发人员构建和测试 Snowflake Native Apps,借此运用 Snowflake 中的现有数据。据称,配套软件市场上现已有超过 25 款应用可供使用。


Amalgam Insights 公司 CEO 兼首席分析师 Hyun Park 表示,在数据湖领域,Iceberg、Hudi 和 Delta 格式之间将必有一战。


“目前,不少第三方正在与 Iceberg 合作,认为其是最易于使用的数据格式。而且坦率地讲,企业客户也害怕赋予 Databricks 太大的权力。”


然而,Databricks 同时支持这三种格式的举措,意味着其也可以为 Iceberg 客户——也就是 Snowflake 和 Cloudera 的客户——提供服务。


“这是一种颇为明智的方式,能够跨越全部数据湖格式实现智能分析。”


Park 还认为,Iceberg 虽然在技术普及度上更胜一筹,但在性能层面却面临挑战。与此同时,投资者则希望 Snowflake 能够向其他领域扩张自己的力量。Park 表示,“Snowflake 承载着市场估值和股东的期待,因此正努力在应用开发和机器学习等各类平台上充当数据解决方案。”


咨询公司 Forrester 首席分析师 Mike Gualtieri 对 Snowflake 在第三方应用领域的表现则并不满意。“我认为这没什么说服力,因为与企业所需的完整应用解决方案相比,Snowflake 这种专注于应用数据的思路太过狭义、甚至可以说是微不足道。”但他也承认,Snowflake 确实在数据湖方面取得了进展,这对供应商和喜欢该平台的客户来说肯定是个好消息。


过去几年来,数据湖和智能湖仓之间的边界开始日渐模糊。Databricks 率先创造了智能湖仓的概念,并在其平台上提供 SQL 和类似商务智能的查询功能;而 Snowflake 则开始支持非结构化数据。


Gualtieri 指出,“这两种技术之间存在冲突。企业最需要的是统一的平台,所以 Snowflake 不能单纯宣传自己有多么优势、有多像 Teradata。甚至连处理非结构化数据的能力和机器学习技术都没那么重要,毕竟这些都能通过合作伙伴关系来填补。”


最重要的是,企业客户需要的是单一平台,但用户的具体期望和技术间的割裂现状正阻碍着统一市场的形成。


Gualtieri 解释道,“Teradata 和 Snowflake 确实类似:它们都具备一定的机器学习功能,大家可以用它们满足很多需求。Databricks 的功能也确实要丰富得多。但对于那些已经习惯了在 Spotfire 或者 Tableau 中获取报告的商务智能用户来说,他们希望执行查询后就立即得到结果,而不是像查询数据湖那样等待三秒甚至更久。目前,双方在功能和技术水平方面仍然存在差距,短时间内根本不可能实现统一。”


目前,很多组织其实是数据管理与数据分析双线并进。Snowflake 和 Databricks 均拥有大量跨国客户,前者的知名主顾有卡夫亨氏食品集团、康卡斯特和 EDF Energy;后者则坐拥丰田、壳牌和同为 Snowflake 客户的 AT&T。


Gualtieri 表示,数据湖 / 智能湖仓之间的鸿沟恐怕需要三年时间才能打破,就是说到那时双方才能提供对方的全套功能。在这段时间之内,Snowflake 与 Databricks 两派的冲突恐怕还将持续。


参考链接:


https://www.theregister.com/2023/06/29/databricks_snowflake_tables/

今日荐文

OpenAI 又赢麻了!谷歌 DeepMind 创始人刚称 Gemini 能碾压 GPT-4,OpenAI 的挖人大计就出炉了


用AIGC重构后的智能客服,能否淘到大模型时代的第一桶金?


AIGC 浪潮下,如何推动企业应用及落地?


谷歌警告自家员工:不要使用 Bard 生成的代码


引领手机向“全知全能”进化!iOS版ChatGPT推出联网模式:集成Bing搜索功能,仅对付费用户开放


瞄准 B 端!腾讯云推多款行业大模型解决方案,打造模型应用商店


2023-07-02 17:363521

评论

发布
暂无评论
发现更多内容

【mac视频播放软件推荐】5款常用播放器,啥格式的都可以用

iMac小白

独立服务器,数据安全保障:WorkPlus即时通讯为企业信息安全把关

WorkPlus

ETL结合飞书快速实现业务信息同步

RestCloud

数据同步 ETL 数据集成 飞书

Macs Fan Control Pro设置,解决mac双系统发热问题

影影绰绰一往直前

凡泰极客亮相2024 亚马逊云科技出海全球化论坛,为企业数字化出海赋能

FinClip

安卓屏幕锁万能钥匙:UnlockGo (Android) for Mac 7.6.0 激活版

iMac小白

beyond compare 4破解版 v4.4.5中文版 beyondcompare4永久激活密钥

iMac小白

WorkPlusIM:为企业提供实时通讯和文件共享的全方位解决方案

WorkPlus

从用户中来,到用户中去:IPD集成产品开发之FFAB模型,让你的产品供不应求!

IPD产品研发管理

华为 项目管理 产品经理 IPD 产品研发

下载macOS Catalina 10.15.7 纯净正式版镜像 macOS Catalina 10.15.7

影影绰绰一往直前

Aescripts StyleX插件:AI技术风格化插件 AE插件下载

影影绰绰一往直前

私有化即时通讯软件,WorkPlus提供的私有化、安全通讯解决方案

WorkPlus

【论文速读】| CovRL:基于覆盖引导的强化学习对LLM基础变异进行JavaScript引擎模糊测试

云起无垠

永久激活 intellij idea破解版安装步骤 附idea2023 完整版安装包 支持M

影影绰绰一往直前

测试外包服务 | 从人员外包到测试工具、测试平台,提供全方位的测试解决方案~

测吧(北京)科技有限公司

测试

ps插件:照片一键转卡通Cartoon Maker - Clone

影影绰绰一往直前

完整版onenote 2019破解版含激活密钥安装图文教程、破解注册方法

影影绰绰一往直前

Tipard FixMP4 for Mac v1.0.8激活版 快速修复损坏的MP4文件

iMac小白

企业级im即时通讯软件,支持局域网部署

WorkPlus

局域网内部使用的视频会议系统推荐

WorkPlus

新规来了!智能音视频技术重塑信贷体验

中关村科金

电子签名 音视频技术

Flink+Paimon+Hologres 构建实时湖仓数据分析

Apache Flink

大数据 flink paimon

大模型做时序预测也很强!华人团队激活LLM新能力,超越一众传统模型实现SOTA

Openlab_cosmoplat

基于Python实现盈利8371%的交易策略

俞凡

Python 交易策略

Mac电脑电池健康必备软件:AlDente Pro破解版附AlDente Pro安装教程 兼容macos14

iMac小白

擘画未来 即刻出发!云起无垠入围安全“FP30”计划

云起无垠

Intel Vision 2024大会: 英特尔发布全新软硬件平台,全速助力企业推进AI创新

E科讯

乘势而上 韧性增长丨凡泰极客入选华为首批HarmonyOS开发服务商

FinClip

Photoshop 2023 (ps 2023) for Mac v24.7最新中文激活版附破解补丁

影影绰绰一往直前

支持M1、商业数学软件MATLAB R2023a 破解下载

影影绰绰一往直前

欧伟杰博士:不做追随者 “内核”的厚度决定“产品”的高度

YashanDB

数据库 国产数据库 yashandb 根技术 共享集群

剑拔弩张的 Databricks 和Snowflake,连用个Apache Iceberg 都能掐架!_数据湖仓_Lindsay Clark_InfoQ精选文章