东亚银行、岚图汽车带你解锁 AIGC 时代的数字化人才培养各赛道新模式! 了解详情
写点什么

失控的不仅仅是云成本:一年为可观测性狂烧 4.5 亿,有钱的“大冤种”也扛不住了

  • 2023-05-19
    北京
  • 本文字数:4776 字

    阅读完需:约 16 分钟

失控的不仅仅是云成本:一年为可观测性狂烧4.5亿,有钱的“大冤种”也扛不住了

“到底是哪家公司 2022 年在Datadog身上花掉了 6500 万美元?”Datadog 最近在财务会议上透露,一项客户一次性支付高达 6500 万美元预付款,此事瞬间引发业内关注:哪家公司出手这么阔绰?可观测供应商这么赚钱?

 

Datadog 是可观测性的主要力量,2019 年融资上市,目前市值为 280 亿美元。该公司 2022 年内的收入为 16.7 亿美元,月均在 1.4 亿美元左右。在一个关于降本的小调查中,“AWS”和“Datadog”是被提及最多的两家供应商。这显然证明基础设施和可观测性成本已经相当高昂,其中 AWS 是基础设施领域的领导者。

 

在 5 月 4 日的财报电话会议上,Datadog 首席财务官 David Obstler 提到了一笔“非经常性支出”(也称一次性费用),并表示:

 

“本季度收入为 5.11 亿美元,较上年同期增长 15%。2022 年第一季度,曾有客户支付一笔巨额预付款;但 2023 年第一季度没有类似的大额支出。根据对该客户的估算,其账单同比增长率将低于 30%。”

 

这一细节被摩根大通研究部执行董事兼金融分析师 Mark Ronald Murphy 捕捉到了。在进行计算后,Murphy 透露出该笔预付款约为 6500 万美元(约合人民币 4.5 亿),Datadog 也承认了该数字的准确性。Obstler表示,该公司改变了计费频率和金额,因此随着时间的推移,该客户的帐单将分摊得更多。

 

Obstler 透露,“这是一家加密货币公司,目前仍是我们的客户。他们是一家早期优化厂商,所处的行业正是我们经常讨论的受影响最大、优化空间最广的领域。”

 

Datadog 联合创始人兼首席执行官 Olivier Pomel 表示,在过去的一年里,该客户所在垂直行业几乎被摧毁了。他们自己的业务收入减少了 3 到 4 倍。“在这种情况下,我们会与客户合作,重组他们与我们的合同。我们想成为他们解决方案的一部分,而不是问题的一部分。”

 

至此,网上对于“到底是哪家加密公司 2022 年 内在 Datadog 身上花掉了 6500 万美元”一事充满各种猜测。

 

投资者 Turner Novak推测是 Coinbase,但并不是很确定。网上甚至出现了冒充 Coinbase 员工的人。比如Hacker News上的某位匿名评论者,其声称 6500 万美元其实是未来三年的预付款,但消息内容无法核实。后来,FARMLEND 全栈工程师 Gergely Orosz 发文称自己确认了该公司就是 Coinbase,而那笔款项就是他们当年的到期账单。下面我们看下 Orosz 的详细说法。

 

“没人关心基础设施成本了”

 

Coinbase 公司于当年 6 月上市,上市首日估值 857 亿美元。相比之下,将近两年后,该公司的估值约为 140 亿美元,下降了约 75%。在繁荣时期,交易量激增,屡创新高,而 Coinbase 基础设施几乎无法跟上。Coinbase 首席执行官 Brian Amstrong 曾表示:

 

“2021 年对 Coinbase 来说是不可思议的一年,这种态势不要说在人的一生中非常罕见,拿到整个商业发展史上看也是屈指可数。我们的月交易用户达到创历史新高的 1140 万,同比增长 4 倍。400%的增长率,简直令人难以置信。”

 

在 2021 年首次公开募股之后,Coinbase 公司里已经没人关心基础设施成本了,唯一的目标就是继续保持增长。该公司先后向 AWS、Snowflake 和 Datadog 等厂商支付了巨额费用。于是乎,2021 年这 6500 万美元确实花给了 Datadog,Coinbase 则在 2022 年第一季度结清了这笔支出。

 

可 2022 年伊始,Coinbase 的情况急转直下、需要立即削减基础设施支出。这是因为加密行业突然遇冷,Coinbase 的业务自然也受到影响。随着收入枯竭,该公司开始将注意力转向降本增效。

 

在可观测性方面,Coinbase 成立了专项团队,目标是把这部分功能从 Datadog 转移到内部 Grafana/Prometheus/Clickhouse 技术栈上。下面对这些技术稍做介绍:

 

  • Prometheus:一种时序数据库。作为一套非常流行的系统和服务监控开源解决方案,Prometheus 会按给定的时间间隔从配置的目标(服务)处收集指标,并结合评估规则以触发警报。

 

Prometheus 主要由 Go 编写,也有用到 Java、Python 和 Ruby 代码。Prometheus 可将时序数据以一种高效、可定制的格式存储在内存内和持久存储介质(HDD 或 SSD)上,而且支持分区和联邦部署。

 

Prometheus 属于云原生基的下辖项目,因此在它之上构建业务比较安全。该项目在当前及可预见的未来都将拥有稳定的维护和支持。

 

Prometheus 可以自托管,部分云服务商也在提供 Prometheus 托管服务:Googld Cloud 和 AWS 都提供生产级服务选项,Azure 的服务目前则仅提供预览版。

 

  • Grafana:可视化指标前端。Grafana 是一种流行的源分析和监控可视化解决方案。如果大家需要查看或深入了解指标或警报,那 Grafana 就是理想的首选工具,在科技企业中得到广泛应用。Grafana 仪表板示例:

 

 

  • Clickhouse:日志记录管理工具。这是一套快速、开源,且面向列的数据库管理系统,也是目前流行的日志管理选项。Clickhouse 主要由 C++编写而成,在整个行业内得到广泛应用。例如,Cloudflare 就使用 Clickhouse 来存储其所有 DNS 和 HTTP 日志——每秒超过 1000 万行!Clickhouse 还是 Uber 的中央日志记录平台。

 

Coinbase 最初之所以选择自己动手,主要目标并不是节约成本,而是要获取完全控制力和可观测性。可观测性和可靠性,也正是 Coinbase 在市场上与竞争对手抗衡时的最大王牌。

 

但随着加密货币市场的降温,成本开始成为核心关注点,而内部运营的 Grafana/Prometheus 方案也确实要便宜得多。Coinbase 团队几个月来一直在重复调试新技术栈,最终解决了所有问题、确认一切运行正常。

 

就这样,Coinbase 本打算就此跟 Datadog 说拜拜,但 Datadog 在最后一刻挽救了这段合作关系,给 Coinbase 开出一项其无法拒绝的优厚条款。简单来说,Datadog 后续开出的账单将远远低于 2021 年的 6500 万美元。毕竟就像 Brian Amstrong 在谈到 2021 年的加密货币市场时说的那样,6500 万美元的账单在整个商业发展史上也不常见

 

为留住客户,Datadog 打“骨折”

 

Orosz 就此事询问了 Coinbase 一位同时体验过内部技术栈和 Datadog 的工程师,想听听对方怎么看待继续留用 Datadog 的决定。这位工程师认为,考虑到合理的成本和卓越的开发体验,继续选择 Datadog 是个正确的决定。

 

Coinbase 最终已经能在内部设计出类似的体验,但要想实现与 Datadog 相近的无缝开发者体验,那可能还需要耗费数十年的工程投入。

 

而且可观测性工具中的“昂贵”是个相对概念。比方说,在大幅降价之后,如今 Coinbase 每年“仅”须在 Datadog 身上花费 1000 万美元。那这 1000 万美元到底多不多?

 

第一反应似乎仍然不少,但再深入剖析后可以发现,像 Datadog 这样的平台还有助于防止中断、即时检测并快速缓解宕机事故。

 

2022 年,Coinbase 曾发生过 18 次停机,总时长约为 12 小时。根据 2022 年的收入计算,该公司的日均收入约为 900 万美元。假设 Datadog 能够通过早期监控来防止中断问题,由此将中断次数减少了一半,那就可以认为如果没有 Datadog 的参与,实际停机总时长将是 24 个小时。

 

另外,假设 Datadog 支持下的 Coinbase 能够将恢复速度提升至 2 倍(可能是因为 Datadog 会快速将健康指标同日志、调试操作等联系起来,帮助查明根本原因并改进缓解效率),那么不用 Datadog 的总停机时长将进一步延长到 36 个小时。

 

这样做个简单的数学计算,Coinbase 选择了 Datadog 之后单在停机时间上就省下了 900 万美元,所以现在每年 1000 万美元的支出可以说是物有所值!

 

千万美元的可观测账单,并不罕见

 

在 DataDog 的案例中,由于该公司提供的不仅仅是可观测性解决方案,还包括安全账单,数字变得更加复杂。财报没有说明这家未具名的公司使用了多少此类 SaaS 服务。

 

“虽然 6500 万美元是一个令人震惊的数字,但对于传统的可观测性公司来说,1000 万美元的账单并不罕见。”可观测性替代提供商 Groundcover 首席执行官 Shahar Azulay 表示。

 

“像 Coinbase 这样的大公司,不久前就已经开始以每年 1000 万美元的价格进行采购。”Azulay 说道,“很多公司每年会向 Splunk、Dynatrace、DataDog 这样的可观测提供商支付超过 1000 万美元,甚至同时向多个供应商支付,每个供应商都超过两位数的收入,这并不罕见。”

 

Azulay 补充道,重点在于可观测供应商如何定价。可观测性解决方案监控三种类型的数据:日志、度量和跟踪(监视交互的路径,例如端到端事务和服务之间发生的事情)。这些数据源的增长趋势很难预测,尤其是当“黑色星期五”这样的事件出现时,用户的使用量会达到峰值。

 

它充满很大的不可预测性,并对推送到日志中的数据量有很大的依赖,这就是有大量定价点的根本原因,因为你无法控制,也无法知道下个月将支付多少。”Azulay 表示,更重要的是,即使合同是针对某一梯度水平的,一旦公司超过了该等级,那从当天起,厂商就会按更高的等级费率收费。

 

“特定的 log lines 可以成为基础设施的关键部分,例如谷歌的搜索引擎或任何每天运行 100 万次的东西——只是客户每天使用它 100 万次。”Azulay 表示,开发人员可能只是将更多的 log lines 或数据点推送到系统中,但不知道更多。有一个这样的循环:开发人员创建应用程序,构建组织作为产品提供方应该做的业务逻辑,然后做研发管理,直到两个月后才发现:哦,这让我们的价格上涨了 50%。

 

Azulay 认为,问题可能会落在开发人员身上,因为他们向可观测性堆栈推送了太多信息,导致监控生产的数据点数量减少了。“这是一个奇怪的恶性循环,开发人员想要更多的数据来排除故障,而管理人员则需要权衡,他们必须为此支付大量的钱。”

 

不过,并非所有可观测性公司都是这样收费的。使用 eBPF 代理的 Groundcover 不收集数据,它按生产环境中运行的服务器数量收费。

 

谁是“大冤种”

 

很明显,供应商会对客户的支出削减守口如瓶,我们只是很幸运地从 Datadog 发言的细微线索中找到了 Coinbase。但 Coinbase 的情况绝不是个例,更多反映了市场的整体趋势

 

Datadog 公司 CEO Olivier Pomel 证实,类似的成本优化举措正在全体客户中间发生

 

“观测我们的数据,回顾我们从超大规模客户那边听到的声音,总结客户关于短期未来的观点,我们确实对接下来的前景没什么信心。换言之,下个季度、最多下下季度,大规模的降本增效就要到来。因此,就目前的指导方针和年内规划而言,我们认为剩下的半年基本都会是这个情况。”

 

Datadog 的危机可能也还在继续。Orosz 透露,Shopify 正打算跟 Datadog 脱钩。

 

Orosz 表示,多家体量巨大的企业都在构建自己的内部 Grafana/Prometheus 技术栈,打算借此脱离原有可观测性供应商,而归根到底还是钱的问题。

 

“每年 200 到 500 万美元的固定支出就是逃离供应商的最佳理由。毕竟一旦到了这个规模,理论上还不如雇用内部团队自己接手这部分工作。”Orosz 表示。

 

根据指导经验,内部基础设施的运营成本要远低于供应商开出的价格。这是因为供应商和企业往往都在使用相同的云基础设施,可能是 AWS、Google Cloud Platform 或者 Azure。最大的区别在于,企业需要聘请专门的工程团队和技术人员来构建并运行这套基础设施。

 

因此从成本角度看,最终权衡可以提炼成下面这条简单规则:

 

基础设施成本 + 平台团队成本 < 现有供应商成本

 

其中,平台团队成本会高于 100 万美元,有时候甚至超过 200 万美元。这是因为平台团队至少要有 4、5 位工程师加一名经理,他们的平均年薪都在 15 万到 40 万美元之间,具体由成本基础决定。

 

所以当服务账单每年达到 200 甚至 300 万美元级别时,自建就比外包显得更靠谱了。而完成最后临门一脚的,则是供应商在原始基础设施之上又附加了多高的保留利润。

 

Orosz 表示自己想不通 Coinbase 的行为:为什么供应商都把价格开到 6500 万美元这个级别了,他们才开始考虑自建团队?

 

“这可是 6500 万美元,Coinbase 完全能用它在湾区组建一支 10 名高级/资深工程师的豪华阵容,就算这样成本每年也不会超过 500 万美元。之后就是给基础设施做成本预算,这部分开支每年也就不到 100 万美元吧。”Orosz 感叹道。


参考链接:

https://investors.datadoghq.com/static-files/18234a4f-04f9-4a9f-9679-668cd672fb7b

https://blog.pragmaticengineer.com/datadog-65m-year-customer-mystery/

https://thenewstack.io/datadogs-65m-bill-and-why-developers-should-care/

2023-05-19 18:177514

评论 1 条评论

发布
用户头像
哈哈哈, 监控多好的一门生意啊. 赚钱多, 加班少, 出事也不会背主要的锅. 但就是这么好的生意, 也被国内的厂商给卷烂了, 特别是很久之前的oneapm, 直接一口价, 还送近乎无限的人天支持. 结果呢? 都没有好结果.
2023-05-22 10:07 · 上海
回复
没有更多了
发现更多内容

我不服!这开源项目居然才888个星!?

why技术

Java

【布道API】API设计应该了解的HTTP方法和特性

devpoint

RESTful HTTP协议 6月日更

如何解决回归任务数据不均衡的问题?

华为云开发者联盟

深度学习 模型 标签 数据不平衡 DIR

只记得文件类型如何用EasyRecovery实现恢复?

淋雨

数据恢复 EasyRecovery 文件恢复 照片恢复

ONES CTO 冯斌 | 大型团队敏捷项目管理实践与思考

万事ONES

项目管理 研发管理 团队协作 ONES 研发工具

联想积极参与CSMM标准制定和推广,推进中国软件产业高质量发展

科技热闻

为什么聪明的程序员会写出糟糕的代码

实力程序员

GrowingIO 增长平台产研项目管理实践

GrowingIO技术专栏

项目管理 程序员 Jira growingio

Java字符串池、常量池、intern的爱恨纠葛

叫我阿柒啊

Java 常量池 intern 字符串常量池

WorkPlus Lite 企业级移动平台

WorkPlus

项目管理100问 | 研发团队如何实现无缝协作

万事ONES

项目管理 ONES Project 研发团队

相约厦门!HarmonyOS Connect伙伴峰会将于6月17日举办

科技汇

和12岁小同志搞创客开发:拿到一款控制器,要怎么分析?

不脱发的程序猿

DIY 创客开发 怎么分析控制器?

从单体系统到微服务

escray

学习 极客时间 朱赟的技术管理课 6月日更

技术干货 | 如何实现对动态PPT的云端录制?

ZEGO即构

音视频 WebRTC RTC 即构 动态PPT录制

Python——列表元素的增删改

在即

6月日更

机器学习入门:多变量线性回归

华为云开发者联盟

机器学习 多变量线性回归

Java 并发编程—— Executors 分析应用

Antway

6月日更

Dokcer Compose部署Nebula Graph配置文件

阿呆

配置信息

助力碳中和,EMQ与SAP共同构建绿色IoT解决方案

EMQ映云科技

开源 5G 碳中和 SAP 碳达峰

和12岁小同志搞创客开发:如何选择合适的控制器?

不脱发的程序猿

DIY 创客开发 如何选择合适的控制器?

缓存与数据库的双写一致性

leonsh

MySQL redis 缓存

可视化及时把控营运状况,助力管理效率提升80%

一只数据鲸鱼

数据可视化 智慧城市 智慧园区 三维可视化 智慧楼宇

云小课 | 华为云KYON之私网NAT网关

华为云开发者联盟

网关 华为云 KYON企业级云网络 私网NAT网关 重叠组网

产品策略闭环是个什么环?

万事ONES

项目管理 研发管理 ONES 产品策略

WorkPlus私有化「数智融合」移动平台

WorkPlus

【FlinkSQL】Flink SQL Query 语法(二)

Alex🐒

flink FlinkSQL flink1.13

「终!」☕️【Java技术之旅】带你进入String类的易错点和底层本质分析!

洛神灬殇

Java 字符串 字符串常量池 6月日更

【Flutter 专题】107 图解自定义 ACEPageMenu 滑动菜单 (二)

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 6月日更

技术实践丨体验量子神经网络在自然语言处理中的应用

华为云开发者联盟

自然语言处理 量子 量子神经网络 量子模拟

来自 Apache APISIX committer 的经验分享 —— 编程之夏专访

API7.ai 技术团队

后端 技术人 API 网关

失控的不仅仅是云成本:一年为可观测性狂烧4.5亿,有钱的“大冤种”也扛不住了_语言 & 开发_褚杏娟_InfoQ精选文章