【AICon】探索八个行业创新案例,教你在教育、金融、医疗、法律等领域实践大模型技术! >>> 了解详情
写点什么

失控的不仅仅是云成本:一年为可观测性狂烧 4.5 亿,有钱的“大冤种”也扛不住了

  • 2023-05-19
    北京
  • 本文字数:4776 字

    阅读完需:约 16 分钟

失控的不仅仅是云成本:一年为可观测性狂烧4.5亿,有钱的“大冤种”也扛不住了

“到底是哪家公司 2022 年在Datadog身上花掉了 6500 万美元?”Datadog 最近在财务会议上透露,一项客户一次性支付高达 6500 万美元预付款,此事瞬间引发业内关注:哪家公司出手这么阔绰?可观测供应商这么赚钱?

 

Datadog 是可观测性的主要力量,2019 年融资上市,目前市值为 280 亿美元。该公司 2022 年内的收入为 16.7 亿美元,月均在 1.4 亿美元左右。在一个关于降本的小调查中,“AWS”和“Datadog”是被提及最多的两家供应商。这显然证明基础设施和可观测性成本已经相当高昂,其中 AWS 是基础设施领域的领导者。

 

在 5 月 4 日的财报电话会议上,Datadog 首席财务官 David Obstler 提到了一笔“非经常性支出”(也称一次性费用),并表示:

 

“本季度收入为 5.11 亿美元,较上年同期增长 15%。2022 年第一季度,曾有客户支付一笔巨额预付款;但 2023 年第一季度没有类似的大额支出。根据对该客户的估算,其账单同比增长率将低于 30%。”

 

这一细节被摩根大通研究部执行董事兼金融分析师 Mark Ronald Murphy 捕捉到了。在进行计算后,Murphy 透露出该笔预付款约为 6500 万美元(约合人民币 4.5 亿),Datadog 也承认了该数字的准确性。Obstler表示,该公司改变了计费频率和金额,因此随着时间的推移,该客户的帐单将分摊得更多。

 

Obstler 透露,“这是一家加密货币公司,目前仍是我们的客户。他们是一家早期优化厂商,所处的行业正是我们经常讨论的受影响最大、优化空间最广的领域。”

 

Datadog 联合创始人兼首席执行官 Olivier Pomel 表示,在过去的一年里,该客户所在垂直行业几乎被摧毁了。他们自己的业务收入减少了 3 到 4 倍。“在这种情况下,我们会与客户合作,重组他们与我们的合同。我们想成为他们解决方案的一部分,而不是问题的一部分。”

 

至此,网上对于“到底是哪家加密公司 2022 年 内在 Datadog 身上花掉了 6500 万美元”一事充满各种猜测。

 

投资者 Turner Novak推测是 Coinbase,但并不是很确定。网上甚至出现了冒充 Coinbase 员工的人。比如Hacker News上的某位匿名评论者,其声称 6500 万美元其实是未来三年的预付款,但消息内容无法核实。后来,FARMLEND 全栈工程师 Gergely Orosz 发文称自己确认了该公司就是 Coinbase,而那笔款项就是他们当年的到期账单。下面我们看下 Orosz 的详细说法。

 

“没人关心基础设施成本了”

 

Coinbase 公司于当年 6 月上市,上市首日估值 857 亿美元。相比之下,将近两年后,该公司的估值约为 140 亿美元,下降了约 75%。在繁荣时期,交易量激增,屡创新高,而 Coinbase 基础设施几乎无法跟上。Coinbase 首席执行官 Brian Amstrong 曾表示:

 

“2021 年对 Coinbase 来说是不可思议的一年,这种态势不要说在人的一生中非常罕见,拿到整个商业发展史上看也是屈指可数。我们的月交易用户达到创历史新高的 1140 万,同比增长 4 倍。400%的增长率,简直令人难以置信。”

 

在 2021 年首次公开募股之后,Coinbase 公司里已经没人关心基础设施成本了,唯一的目标就是继续保持增长。该公司先后向 AWS、Snowflake 和 Datadog 等厂商支付了巨额费用。于是乎,2021 年这 6500 万美元确实花给了 Datadog,Coinbase 则在 2022 年第一季度结清了这笔支出。

 

可 2022 年伊始,Coinbase 的情况急转直下、需要立即削减基础设施支出。这是因为加密行业突然遇冷,Coinbase 的业务自然也受到影响。随着收入枯竭,该公司开始将注意力转向降本增效。

 

在可观测性方面,Coinbase 成立了专项团队,目标是把这部分功能从 Datadog 转移到内部 Grafana/Prometheus/Clickhouse 技术栈上。下面对这些技术稍做介绍:

 

  • Prometheus:一种时序数据库。作为一套非常流行的系统和服务监控开源解决方案,Prometheus 会按给定的时间间隔从配置的目标(服务)处收集指标,并结合评估规则以触发警报。

 

Prometheus 主要由 Go 编写,也有用到 Java、Python 和 Ruby 代码。Prometheus 可将时序数据以一种高效、可定制的格式存储在内存内和持久存储介质(HDD 或 SSD)上,而且支持分区和联邦部署。

 

Prometheus 属于云原生基的下辖项目,因此在它之上构建业务比较安全。该项目在当前及可预见的未来都将拥有稳定的维护和支持。

 

Prometheus 可以自托管,部分云服务商也在提供 Prometheus 托管服务:Googld Cloud 和 AWS 都提供生产级服务选项,Azure 的服务目前则仅提供预览版。

 

  • Grafana:可视化指标前端。Grafana 是一种流行的源分析和监控可视化解决方案。如果大家需要查看或深入了解指标或警报,那 Grafana 就是理想的首选工具,在科技企业中得到广泛应用。Grafana 仪表板示例:

 

 

  • Clickhouse:日志记录管理工具。这是一套快速、开源,且面向列的数据库管理系统,也是目前流行的日志管理选项。Clickhouse 主要由 C++编写而成,在整个行业内得到广泛应用。例如,Cloudflare 就使用 Clickhouse 来存储其所有 DNS 和 HTTP 日志——每秒超过 1000 万行!Clickhouse 还是 Uber 的中央日志记录平台。

 

Coinbase 最初之所以选择自己动手,主要目标并不是节约成本,而是要获取完全控制力和可观测性。可观测性和可靠性,也正是 Coinbase 在市场上与竞争对手抗衡时的最大王牌。

 

但随着加密货币市场的降温,成本开始成为核心关注点,而内部运营的 Grafana/Prometheus 方案也确实要便宜得多。Coinbase 团队几个月来一直在重复调试新技术栈,最终解决了所有问题、确认一切运行正常。

 

就这样,Coinbase 本打算就此跟 Datadog 说拜拜,但 Datadog 在最后一刻挽救了这段合作关系,给 Coinbase 开出一项其无法拒绝的优厚条款。简单来说,Datadog 后续开出的账单将远远低于 2021 年的 6500 万美元。毕竟就像 Brian Amstrong 在谈到 2021 年的加密货币市场时说的那样,6500 万美元的账单在整个商业发展史上也不常见

 

为留住客户,Datadog 打“骨折”

 

Orosz 就此事询问了 Coinbase 一位同时体验过内部技术栈和 Datadog 的工程师,想听听对方怎么看待继续留用 Datadog 的决定。这位工程师认为,考虑到合理的成本和卓越的开发体验,继续选择 Datadog 是个正确的决定。

 

Coinbase 最终已经能在内部设计出类似的体验,但要想实现与 Datadog 相近的无缝开发者体验,那可能还需要耗费数十年的工程投入。

 

而且可观测性工具中的“昂贵”是个相对概念。比方说,在大幅降价之后,如今 Coinbase 每年“仅”须在 Datadog 身上花费 1000 万美元。那这 1000 万美元到底多不多?

 

第一反应似乎仍然不少,但再深入剖析后可以发现,像 Datadog 这样的平台还有助于防止中断、即时检测并快速缓解宕机事故。

 

2022 年,Coinbase 曾发生过 18 次停机,总时长约为 12 小时。根据 2022 年的收入计算,该公司的日均收入约为 900 万美元。假设 Datadog 能够通过早期监控来防止中断问题,由此将中断次数减少了一半,那就可以认为如果没有 Datadog 的参与,实际停机总时长将是 24 个小时。

 

另外,假设 Datadog 支持下的 Coinbase 能够将恢复速度提升至 2 倍(可能是因为 Datadog 会快速将健康指标同日志、调试操作等联系起来,帮助查明根本原因并改进缓解效率),那么不用 Datadog 的总停机时长将进一步延长到 36 个小时。

 

这样做个简单的数学计算,Coinbase 选择了 Datadog 之后单在停机时间上就省下了 900 万美元,所以现在每年 1000 万美元的支出可以说是物有所值!

 

千万美元的可观测账单,并不罕见

 

在 DataDog 的案例中,由于该公司提供的不仅仅是可观测性解决方案,还包括安全账单,数字变得更加复杂。财报没有说明这家未具名的公司使用了多少此类 SaaS 服务。

 

“虽然 6500 万美元是一个令人震惊的数字,但对于传统的可观测性公司来说,1000 万美元的账单并不罕见。”可观测性替代提供商 Groundcover 首席执行官 Shahar Azulay 表示。

 

“像 Coinbase 这样的大公司,不久前就已经开始以每年 1000 万美元的价格进行采购。”Azulay 说道,“很多公司每年会向 Splunk、Dynatrace、DataDog 这样的可观测提供商支付超过 1000 万美元,甚至同时向多个供应商支付,每个供应商都超过两位数的收入,这并不罕见。”

 

Azulay 补充道,重点在于可观测供应商如何定价。可观测性解决方案监控三种类型的数据:日志、度量和跟踪(监视交互的路径,例如端到端事务和服务之间发生的事情)。这些数据源的增长趋势很难预测,尤其是当“黑色星期五”这样的事件出现时,用户的使用量会达到峰值。

 

它充满很大的不可预测性,并对推送到日志中的数据量有很大的依赖,这就是有大量定价点的根本原因,因为你无法控制,也无法知道下个月将支付多少。”Azulay 表示,更重要的是,即使合同是针对某一梯度水平的,一旦公司超过了该等级,那从当天起,厂商就会按更高的等级费率收费。

 

“特定的 log lines 可以成为基础设施的关键部分,例如谷歌的搜索引擎或任何每天运行 100 万次的东西——只是客户每天使用它 100 万次。”Azulay 表示,开发人员可能只是将更多的 log lines 或数据点推送到系统中,但不知道更多。有一个这样的循环:开发人员创建应用程序,构建组织作为产品提供方应该做的业务逻辑,然后做研发管理,直到两个月后才发现:哦,这让我们的价格上涨了 50%。

 

Azulay 认为,问题可能会落在开发人员身上,因为他们向可观测性堆栈推送了太多信息,导致监控生产的数据点数量减少了。“这是一个奇怪的恶性循环,开发人员想要更多的数据来排除故障,而管理人员则需要权衡,他们必须为此支付大量的钱。”

 

不过,并非所有可观测性公司都是这样收费的。使用 eBPF 代理的 Groundcover 不收集数据,它按生产环境中运行的服务器数量收费。

 

谁是“大冤种”

 

很明显,供应商会对客户的支出削减守口如瓶,我们只是很幸运地从 Datadog 发言的细微线索中找到了 Coinbase。但 Coinbase 的情况绝不是个例,更多反映了市场的整体趋势

 

Datadog 公司 CEO Olivier Pomel 证实,类似的成本优化举措正在全体客户中间发生

 

“观测我们的数据,回顾我们从超大规模客户那边听到的声音,总结客户关于短期未来的观点,我们确实对接下来的前景没什么信心。换言之,下个季度、最多下下季度,大规模的降本增效就要到来。因此,就目前的指导方针和年内规划而言,我们认为剩下的半年基本都会是这个情况。”

 

Datadog 的危机可能也还在继续。Orosz 透露,Shopify 正打算跟 Datadog 脱钩。

 

Orosz 表示,多家体量巨大的企业都在构建自己的内部 Grafana/Prometheus 技术栈,打算借此脱离原有可观测性供应商,而归根到底还是钱的问题。

 

“每年 200 到 500 万美元的固定支出就是逃离供应商的最佳理由。毕竟一旦到了这个规模,理论上还不如雇用内部团队自己接手这部分工作。”Orosz 表示。

 

根据指导经验,内部基础设施的运营成本要远低于供应商开出的价格。这是因为供应商和企业往往都在使用相同的云基础设施,可能是 AWS、Google Cloud Platform 或者 Azure。最大的区别在于,企业需要聘请专门的工程团队和技术人员来构建并运行这套基础设施。

 

因此从成本角度看,最终权衡可以提炼成下面这条简单规则:

 

基础设施成本 + 平台团队成本 < 现有供应商成本

 

其中,平台团队成本会高于 100 万美元,有时候甚至超过 200 万美元。这是因为平台团队至少要有 4、5 位工程师加一名经理,他们的平均年薪都在 15 万到 40 万美元之间,具体由成本基础决定。

 

所以当服务账单每年达到 200 甚至 300 万美元级别时,自建就比外包显得更靠谱了。而完成最后临门一脚的,则是供应商在原始基础设施之上又附加了多高的保留利润。

 

Orosz 表示自己想不通 Coinbase 的行为:为什么供应商都把价格开到 6500 万美元这个级别了,他们才开始考虑自建团队?

 

“这可是 6500 万美元,Coinbase 完全能用它在湾区组建一支 10 名高级/资深工程师的豪华阵容,就算这样成本每年也不会超过 500 万美元。之后就是给基础设施做成本预算,这部分开支每年也就不到 100 万美元吧。”Orosz 感叹道。


参考链接:

https://investors.datadoghq.com/static-files/18234a4f-04f9-4a9f-9679-668cd672fb7b

https://blog.pragmaticengineer.com/datadog-65m-year-customer-mystery/

https://thenewstack.io/datadogs-65m-bill-and-why-developers-should-care/

2023-05-19 18:177527

评论 1 条评论

发布
用户头像
哈哈哈, 监控多好的一门生意啊. 赚钱多, 加班少, 出事也不会背主要的锅. 但就是这么好的生意, 也被国内的厂商给卷烂了, 特别是很久之前的oneapm, 直接一口价, 还送近乎无限的人天支持. 结果呢? 都没有好结果.
2023-05-22 10:07 · 上海
回复
没有更多了
发现更多内容

啃碎并发(八):深入分析wait&notify原理 猿码架构

猿灯塔

漫画 | 架构设计中的那些事

码农神说

架构设计 架构师 漫画编程

编程能力 —— 异步编程

wendraw

Java 大前端 编程能力

流水账

zack

编程能力 —— 寻路问题

wendraw

Java 大前端 编程能力

5分钟上手部署!!!

清风

Java Spring Boot

521我发誓读完本文,再也不会担心Spring配置类问题了

YourBatman

spring springboot @Configuration Spring配置类

一些思考

张健

一文看懂 OAuth2

pingan8787

Java 大前端 Web oauth2.0

30 张图带你分分钟看懂进程和线程基础知识全家桶

爱嘤嘤嘤斯坦

Java 线程 进程 进程线程区别

最大的 String 字符长度是多少?

武培轩

Java 源码 后端 JVM

肖风:数据要素市场与分布式AI平台

CECBC

亚马逊:让创新科技成为重启世界的新动能

爱极客侠

开发者必备——IDEA配置清单

Noneplus

配置 IDEA

图片处理不用愁,给你十个小帮手

阿宝哥

Java 开源 大前端 工具 图片

SpringBoot入门:00 - 初始化项目

封不羁

Spring Boot java 14

DDD实施过程中的点滴思考

冯文辉

领域驱动设计 DDD

HTTP/2 总结

guoguo 👻

【写作群星榜】6.27~7.10 写作平台优秀作者 & 文章排名

InfoQ写作社区官方

写作平台 排行榜 热门活动

还在划水?这个SQL你能写出来吗?

书旅

php MySQL SQL语法 sql查询

信创舆情一线--《关键信息基础设施安全保护条例》纳入2020年立法计划

统小信uos

信息安全

领域驱动设计(DDD)实践之路(一)

vivo互联网技术

架构 领域驱动设计 DDD

漫画通信:一图看懂通信发展史

阿里云Edge Plus

mac vmware centos7 设置静态IP

愤毛阿青

network vmware Centos 7

利用 Python 爬取了 13966 条运维招聘信息,我得出了哪些结论?

JackTian

Python Linux 运维 数据分析 招聘

编程能力 —— 解析表达式

wendraw

Java 大前端 编程能力

性能碾压 POI !利用模板语法快速生成 Excel 报表

葡萄城技术团队

表格控件 GCExcel 服务器端开发

数据结构与算法知识点总结

烟雨濛濛

Java 后端博客系统文章系统——No2

猿灯塔

积极支持EdgeX发展,英特尔为2020 EdgeX中国挑战赛获奖队伍创造广阔合作空间

最新动态

Java集合总结,从源码到并发一路狂飙

给你买橘子

Java 编程 算法 集合

失控的不仅仅是云成本:一年为可观测性狂烧4.5亿,有钱的“大冤种”也扛不住了_语言 & 开发_褚杏娟_InfoQ精选文章