GMTC深圳站售票最后一周,点击查看最新日程>> 了解详情
写点什么

Databricks 与 Snowflake 创始人开撕:“未来十年数据仓库要么不存在要么大变样”

  • 2021 年 11 月 18 日
  • 本文字数:4334 字

    阅读完需:约 14 分钟

Databricks与Snowflake创始人开撕:“未来十年数据仓库要么不存在要么大变样”

Databricks 与 Snowflake 之间的激烈竞争再上新台阶,甚至有可能给整个数据仓库领域带来更加深远的影响。


短短半个月,大数据领域新一代领军企业 Databricks 和 Snowflake 就互撕了几回。


11 月 2 日,Databricks 在其官方博客发布声明,表示其数据湖仓(lake house)技术创下 TPC-DS 基准测试新记录,并强调第三方研究表明实际性能可达 Snowflake 的 2.5 倍。


在博客中,Databricks 声称这是一件大事,有助于证明数据仓库在未来十年要么不复存在,要么会大变样,“从长远来看,所有数据仓库都将被纳入数据湖仓”。


11 月 12 日,Snowflake 做出回应,发布了自己的测试结果,同时称 Databricks 公布的性能比较结论缺乏完整性,而且研究本身也存在缺陷。Snowflake 公司创始人还强调这种基准测试没什么意义,在这个年代发布数据库基准测试结果是“将正常的技术交流变成了缺乏完整性的营销噱头”。


11 月 15 日,Databricks 的创始人再次在其公司博客上给予回应,指责 Snowflake 为了测试结果竟然改了 TPC-DS 的输入数据,表示有些人不仅作弊还是“酸葡萄”。


这场战斗,双方的企业创始人纷纷亲自下场,可谓招招致命刀刀见血。大多数软件供应商永远不会满足于第二名,这也意味着 Snowflake 和 Databricks 之间的激烈斗争可能才刚刚开始。


事情经过


第一回合:Databricks 出击


Databricks 正着力推动一种名为“数据湖仓”的新型架构,支持者称这种架构甚至能够消除对于数据仓库的直接需求、颠覆几十年来的行业标准,其意义堪比出现了一款能够直接干掉谷歌 Chrome 的新型浏览器设计方案。


信心满满的 Databricks 挑上的第一个对手,就是 Snowflake——只要能用自己为云时代重新设计的数据湖仓技术击败最强在位者,价值 1070 亿美元的市场就将尽归己有。


11 月 2 日,Databricks 宣布经过事务处理性能委员会(简称 TPC)这家独立行业组织的验证确认,Databricks 的系统性能可达行业内最接近的其他数据仓库竞争对手的 2.2 倍。



Databricks 在博客中声称,在经典提取 - 转换 - 加载(ETL)流程的过滤与处理方面,其智能湖仓方案取得了超越 Snowflake 数据仓库方案的性能表现。此次比较采用了 TPC-DS 的基准测试并得到审计认证,其中 Databricks 实现了 3294 万 1245 QphDS @ 100TB 的成绩,打破了阿里巴巴定制系统此前保持的 1486 万 1137 QphDS @ 100 TB 的世界纪录。


Databricks 还宣布巴塞罗那超级计算中心(BSC)的研究团队运行了另外一项不同的基准性能比较,并发现 Databricks SQL(lake house)在同等规模下的速度可达 Snowflake 方案的 2.7 倍。研究团队在 Databricks 基准测试中使用到两种不同模式:按需与竞价(即使用可靠性较低、但成本同样较低的竞价实例)。Databricks 在按需模式下的成本为 Snowflake 的 1/7.4,在竞价模式下则可达到后者的 1/12。


公司 CEO Ali Ghodsi 在采访中表示,“我们基本上已经成功证明在数据湖仓的技术对抗中击败了 Snowflake。”


第二回合:Snowflake 还手


Snowflake 公司创始人 Benoit Dageville 与 Thierry Cruanes 很快做出回应,发表了一篇《行业标杆 诚信竞争》的博客文章。文中表示 Databricks“发布的 Snowflake 结果不透明、未经审计且无法重现。而且,这些结果也与我们的内部基准测试结果和客户体验完全相悖。”



TPC-DS 基准测试会对体量为 100 TB 的 TPC-DS 数据库运行 99 次查询。


Snowflake 对由巴塞罗那研究团队测得的上述 Databricks-Barcelona 结果提出异议,并自行重现了测试内容:



“配置全部为默认,所有查询都在一套 4XL 数据仓库上运行,总时长为 3760 秒;连续运行两轮,取最佳运行时间。可以看到,Snowflake 的实际结果达到 Databricks 报告结果的 2 倍多。而且这里使用的还只是 4XL 数据仓库,规模仅为 Databricks 测试中所用仓库的一半。”


虽然结果有所变化,但 Databricks 的性能领先地位并没有动摇。不过 Snowflake 目前正在开发 5XL 仓库技术,并宣称“我们现阶段的 5XL 仓库在总运行时间上大大优于 Databricks(2597 秒对 3527 秒)。未来在推出通用版本时,各项水平还将进一步提升。”


Databricks 公司还强调,巴塞罗那研究团队公布的结果证明其产品性价比远高于 Snowflake:



Snowflake 这边的两位创始人当然也不认可 Databricks 的性价比结论,表示其中存在误导性。“我们在 AWS-US-WEST 云区域内运行的 4XL 仓库标准版的按需模式价格为每小时 256 美元。由于 Snowflake 产品按秒计费,所以运行整个基准测试只需要 267 美元,绝不是 Databricks 方面报告的 1791 美元。”


下图所示为 Databricks 宣称成本与 Snowflake 实际成本比较:



所以跟性能的情况类似,Databricks 的表现确实比 Snowflake 更好,但好不了那么多。


而 Snowflake 创始人们认为,“如果使用标准版定价,Snowflake 与 Databricks 在性价比方面就基本相当了:对于此次提交给性能委员会的基准测试,两套方案同样运行 3527 秒后的按需成本分别为 267 美元与 275 美元。”


他们还鼓励感兴趣的朋友自己尝试运行 Snowflake TPC-DS 基准测试,验证到底是谁在信口雌黄。只需点击几下鼠标再等上一个小时左右,就能得出靠谱的结论。Snowflake 本身“不会发布综合行业基准,因为这些结果起不到任何有益客户的作用。”


第三回合:Databricks 再次回喷


几天后,Databricks 的创始人又亲自下场撕 Snowflake,表示自己做的就是“客户至上”的基准测试,并且认为 Snowflake 准备的 TPC-DS 数据集有问题。Databricks 利用官方的数据集、同样的硬件,发现测试的速度慢了一倍,和巴塞罗那研究团队的测试速度差不多。


总之,“我们将官方 TPC-DS 数据集加载到 Snowflake 中,对运行功率测试所需的时间进行计时,结果比 Snowflake 在他们的博客中报告的时间长 1.9 倍”。



基准测试的意义有多大?


Snowflake 公司创始人在回击中强调他们不愿意参与这种“与现实体验完全脱节、只为打压竞争对手而存在的基准测试之争,这种行为不符合我们客户至上的核心价值观。”


他们表示:“二十年前,数据库行业里每隔几个月就会有一次破基准测试记录的事情发生。这在当时是大家的首要任务… 但现在数据库行业停止发布新结果也是有原因的。”


“任何拥有一定从业经历的朋友都有相同的体会,基准性能竞赛只会分散企业为客户打造优质产品时的专注度。”再说回 Databricks 公布的实例,“尽管 Databricks 的结果正由事务处理性能委员会(TPC)进行审计,但为了在比较中占据优势,他们已经把正常的技术交流变成了缺乏完整性的营销噱头。”


卡耐基梅隆大学副教授 Andy Pavlo 对此也表示,“在企业层面,也许有些 CIO 会关心产品在性能委员会那边的官方排名,但排名结果对实际销售的影响并不大。”


虽然事务处理性能委员会的影响力近年来一直不断下降,但在行业内的号召力仍然不容小觑。该委员会建立于上世纪八十年代,旨在为数据库性能评估提供中立的裁定指导。性能委员会会首先发布供各家数据库厂商运行的系统基准,之后再对结果进行小组审议与官方认证。


但随着整个行业的爆发式增长与竞争烈化,这些性能基准不但没有降低人们的认知门槛、反而加剧了混乱与争吵。例如,部分供应商开始大肆宣扬并未得到性能委员会正式认证的测试结果。Databricks 表示,他们发布的最新结果已经得到性能委员会的“审计与公布”。性能提升比例相当可观,足以让一部分仍在犹豫的潜在客户下定决心。


颠覆和变革是一场持久战


关注大数据和数据仓库领域动态的朋友可能有印象,本轮只是 Databricks 与 Snowflake 业务交锋的又一个新回合。


这场冲突势必会加剧数据仓库和湖仓一体技术之间的战斗。


Databricks 最初主要是一家数据湖公司,但一直在添加数仓功能,最终走向湖仓一体。Snowflake 则是反过来的,作为一家数仓起家的公司,却一直忙于拥抱数据湖功能。湖仓一体作为一个新兴架构,很多企业目前还在早期探索阶段。


虽然基准测试没有二十年前那么有影响力,但 Databricks 的测试结果值得关注。


“从长远来看,所有数据仓库都将被纳入数据湖仓,”Databricks 的联合创始人兼首席执行官 Ali Ghodsi 说。“这不会在一夜之间发生——这些东西会共存一段时间——但这个官方的世界纪录清楚地证明,在价格和性能上,数据湖仓完胜数据仓库。”


大数据平台领域专家关涛在回复 InfoQ 的采访中也曾讲道:“现在大多数企业都还没有用到湖仓一体的新架构,他们要么选择了数据湖方案,要么选择了数仓方案。但大方向之下,业内对湖仓一体的整体大方向是高度达成一致的。


湖仓一体的兴起本质上是由用户诉求推动的,大家希望得到更好的数据治理和管理能力,同时又希望有更好的灵活性,特别是随着 AI 的兴起,完全纯数仓的二维关系表已经无法承接半 / 非结构化数据的处理,AI 引擎不可能只跑在纯数仓模型上。所以湖仓一体一定是未来的发展趋势。做数仓的会有更多数据湖属性,做数据湖的也会有更多的数仓属性,最后根据实际需求去找到中间的平衡。”


另外,Databricks 已经从投资者手中筹得 35 亿美元,专门用于聘请顶尖人才、打造竞争产品,可谓与 Snowflake 势不两立。Michalis Petropoulos 于今年 6 月加盟 Databricks 并出任高级工程总监。之前,他曾经领导过谷歌旗下的 BigQuery 团队并监督 Amazon Redshift 项目。此外,曾在谷歌领导 Spanner 团队的 Sridhar Machiraju 也在 11 月加入并担任公司高级工程总监。


这还只是新阵容中很小的一部分,过去一年来已经有十几名前亚马逊、谷歌、Snowflake 以及 IBM 员工加入到 Databricks 阵营。后续预计还将有更为庞大的招聘计划:谷歌工程总监 Amit Shukla 将于本月晚些时候加入。


Databricks 公司联合创始人 Reynold Xin 宣称,“我们的核心数据仓库团队……在实际规模上可能已经超越了 Snowflake 那边。”


在最近的几轮融资、性能委员会的认可以及众多新员工加入的利好加持之下,Databricks 的发展势头无疑颇为强劲。截至 8 月 31 日,该公司年经常性收入已经超过 6 亿美元,由此也能看出人们对 Databricks 的数据湖仓模型确实充满期待。


但前路仍然艰难。虽然 Ghodsi 言之凿凿,认为数据湖仓将给整个数据仓库市场带来颠覆性、甚至毁灭性的变革,但要想真的干掉领域内的头部厂商之一,并全盘取代他们长期受到欢迎的技术方案,单凭性能委员会的一份认证显然还远远不够。至少过去二十年来,无数企业级技术的迭起兴衰已经反复证明了这一点。


延伸阅读:


https://databricks.com/blog/2021/11/02/databricks-sets-official-data-warehousing-performance-record.html


https://www.snowflake.com/blog/industry-benchmarks-and-competing-with-integrity/


https://databricks.com/blog/2021/11/15/snowflake-claims-similar-price-performance-to-databricks-but-not-so-fast.html


InfoQ 采访:现在是采用湖仓一体的好时机吗?


https://www.infoq.cn/article/pb09krdg9azagqh4ls4x


2021 年 11 月 18 日 18:002290

评论 1 条评论

发布
用户头像
有竞争才能不断发展!
2021 年 11 月 20 日 16:54
回复
没有更多了
发现更多内容

Python 变量类型

依旧廖凯

28天挑战 3月日更

前端开发:Vue项目中解决Emitted value instead of an instance of Error问题

三掌柜

vue.js 前端 3月日更

价值感知:如何评价企业IT项目的价值?

boshi

价值传递 七日更 项目经验

Hello World!!!

小太阳

算法攻关-从上到下打印二叉树(O(n))_offer32

小诚信驿站

架构师 刘晓成 小诚信驿站 28天写作 算法攻关

Python yaml 使用的包

HoneyMoose

法大大完成D轮9亿元融资,腾讯领投

人称T客

关于写东西的一点思考

道伟

28天写作

ARTS - Week 6

Khirye

Java LeetCode arts

甚至你可以在网抑云上听歌

ES_her0

28天写作 3月日更

软考备考视频的目录

IT蜗壳-Tango

3月日更 软考

你的决定我做主——锚定效应

Justin

心理学 28天写作 游戏设计

如何通过XMind 实践OKR 工作法

博文视点Broadview

MySQL原理

Sakura

28天写作 28天挑战 3月日更

Python 注释

HoneyMoose

Python 通过命令行安装包的时候 pip 提示错误

HoneyMoose

醒一醒,讲到 ZooKeeper 的选举机制了

HelloGitHub

Java zookeeper ZooKeeper原理

问题剖析之消息队列的架构设计

Kylin

读书笔记 消息队列架构 3月日更

Wireshark数据包分析学习笔记Day7

穿过生命散发芬芳

Wireshark 数据包分析 3月日更

正则表达式.06 - 断言

insight

正则表达式 3月日更

引爆40亿播放的抖音春节道具,背后是怎样的技术?

字节跳动技术团队

FutureTask源码解析

程序员星星toC

多线程 Future future设计模式

Elasticsearch Reindex & Index Alias

escray

elastic 28天写作 死磕Elasticsearch 60天通过Elastic认证考试

习惯

lenka

3月日更

为什么选择python

张鹤羽粑粑

28天写作 3月日更

NewSQL分布式数据库,例如TIDB用K/V的底层逻辑

守护石CTO

大数据 分布式 分布式存储 RocksDB TiDB

翻译:《实用的Python编程》04_04_Defining_exceptions

codists

Python

四、MongoDB查询(2)

Kylin

读书笔记 分布式数据库mongodb 3月日更

(28DW-S8-Day19) 以太坊是什么

mtfelix

28天写作

如果写文字只是自我表达「Day 19」

道伟

28天写作

深入分析mysql为什么不推荐使用uuid或者雪花id作为主键

xcbeyond

MySQL MySQL优化 3月日更

数据cool谈(第2期)寻找下一代企业级数据库

数据cool谈(第2期)寻找下一代企业级数据库

Databricks与Snowflake创始人开撕:“未来十年数据仓库要么不存在要么大变样”-InfoQ