写点什么

当未经检查的自动扩缩造成 12 万美元的云支出时

作者:Daniel Dominguez

  • 2025-08-13
    北京
  • 本文字数:1337 字

    阅读完需:约 4 分钟

大小:651.42K时长:03:42
当未经检查的自动扩缩造成12万美元的云支出时

最近的一个关于云成本恐怖故事的Reddit帖子,在 LinkedIn 上引发了广泛的讨论,讨论的内容是一个真实世界的事件,其中一个集群在遭受 DDoS 攻击时自动扩展到 2000 个实例,仅在短短 72 小时内就产生了高达 12 万美元的惊人账单。

 

这起事件是所谓的“钱包拒绝”攻击(Denial of Wallet,DoW)的一个例子,它鲜明地提醒人们,不受监控的自动化会带来财务风险。受访者 amylamky 在帖子中发布了这样一个例子:

 

一家初创公司在 72 小时内烧掉了 12 万美元,因为自动扩展没有上限;DDoS 攻击出现后,集群启动了 2000 个 m5.24xlarge 实例,当有人解析 Slack 上的噪音时,账单看起来像一个电话号码。

 

基于这条评论,Zero Cloud Waste的创始人 Mikael Almstedt 在LinkedIn上的一个帖子引发了一场围绕云财务管理教训的广泛讨论。此外,他还提供了一个关键的教训:“自动扩缩是一个强大的工具,但如果没有适当的护栏,它就是一张‘空白支票’”,并提供了一份基本的预防措施清单:

 

  • 为每个自动扩缩组设置上限,以设定资源消耗的硬性限制。

  • 将预算报警与账户级别的关闭绑定,以便在超过阈值时自动停止消费。

  • 使用基础设施漂移检测来发现配置中的意外变化。

  • 将消费报警连接到以人为中心的报警上,而不是依赖未读的 Slack 频道。

 

LinkedIn 上的帖子充满了来自开发人员、架构师和工程师的评论,很快就为这一核心问题添加了一层细微差别。AWS 的企业解决方案架构师Tal Klinger指出,虽然消费上限是一种有用的纠正措施,但它并不能解决根本问题。他认为主要问题是 DDoS 攻击本身,而解决方案架构师 Uros Zizek 建议的预防措施是应该有一个 Web 应用防火墙(Web Application Firewall,WAF)。Klinger 做了以下评论:“根本原因是 DDoS,症状是不断扩展。”

 

Klinger 的评论得到了其他人的呼应,他们认为这次事件是安全问题,而不是配置问题;它强调 AWS 在共享责任模型上运行,其中客户负责保护其应用程序。

 

讨论还揭示了实施硬限制的权衡。DevOps 工程师Ben Shtark评论了成本控制和系统可用性之间的“棘手权衡”。他写道:“在云消费上设置硬性货币限制,实际上会破坏你的生产系统。”他暗示,预算上限可能会阻止合法用户流量的激增,导致业务中断。从这个角度来看,共识是平衡软报警和自动审批与动态护栏。

 

此外,一些评论者指出,这个问题的根源在于云提供商的商业模式。软件 CI/CD 工程师Niklas R.将其与电话费进行了比较,指出如果没有预付费卡,就没有固有的限制。他和其他人建议云提供商应该提供严格的每日或每周成本上限。这与一个在 Azure 中有类似体验的用户的情况形成了对比,他能够与供应商和微软合作,以“折中差异”。

 

这一事件突出表明,FinOps工具和服务的市场正在不断增长,旨在为现代云环境提供必要的护栏和可见性。从AWS Cost Explorer这样的云提供商原生工具,到Apptio CloudabilityCloudZero这样的第三方平台,这些产品通过以下方式帮助组织避免了 DoW 攻击:

 

  • 成本可见性和异常检测,以快速识别和意外报警的消费激增。

  • 通过预算上限和政策执行实现自动化治理。

  • 优化建议,以正确调整资源并消除浪费。

 

最终,DevOps 社区的共识很明确:虽然自动扩缩是现代云架构的关键推手,但它必须与强大的 FinOps 战略相配合,以防止它成为财务负担。

 

原文链接:

https://www.infoq.com/news/2025/08/denial-of-wallet-attack-cloud/

2025-08-13 11:233655

评论

发布
暂无评论

Mediabox:年度最佳音视频开发工具

阿里云CloudImagine

云计算 阿里云 音视频 视频云

实施Scrum敏捷开发必选的敏捷工具

顿顿顿

Scrum 敏捷开发 项目管理工具 Scrum Master 敏捷开发管理工具

LCD拼接屏、LED显示屏和OLED显示屏的主要区别

Dylan

LCD1602液晶显示屏 LED显示屏 led显示屏厂家 OLED

分布式系统中的数据复制

越长大越悲伤

分布式 数据复制

演讲实录:以 AI 变革组织运营与管理

Kyligence

数据分析 数智化 企业级OLAP

时序数据库 TDengine 与金山云两大产品完成兼容互认证

爱倒腾的程序员

数据库

人工智能革命|是疯狂炒作还是大势所趋?

SEAL安全

B2C #人工智能 ChatGPT 企业号 7 月 PK 榜 趋势解读

【活动】30 秒上云体验,一键体验 RocketMQ 六大生产环境

阿里巴巴云原生

阿里云 云原生 Apache RocketMQ

大语言模型的预训练[3]之Prompt Learning:Prompt Engineering | 社区征文

汀丶人工智能

人工智能 自然语言处理 prompt learning 年中技术盘点 prompt 工程

云拨测全面升级丨单次拨测低至 0.001 元

阿里巴巴云原生

阿里云 云原生 可观测

机器学习之PyTorch和Scikit-Learn第3章 使用Scikit-Learn的机器学习分类器之旅Part 2

Alan

人工智能 机器学习 PyTorch scikit-learn

数字化转型与架构-规划篇|承上启下的能力热力图

数字随行

数字化转型

2023-07-18:给你一个正整数数组 nums,请你移除 最短 子数组(可以为 空), 使得剩余元素的 和 能被 p 整除。 不允许 将整个数组都移除。 请你返回你需要移除的最短子数组的长度,如果

福大大架构师每日一题

福大大架构师每日一题

B站&华为云 | 融合虚实宇宙,开启云上视听的黄金时代

白洞计划

AI B站

如何处理需求池?管理需求池的内容

Bonaparte

产品 产品设计 产品思维 产品需求

快照隔离级别原理 | StoneDB 技术分享 #1

StoneDB

MySQL 数据库 HTAP StoneDB

大语言模型的预训练[2]:GPT、GPT2、GPT3、GPT3.5、GPT4相关理论知识和模型实现、模型应用以及各个版本之间的区别详解 |社区征文

汀丶人工智能

人工智能 自然语言处理 GPT GPT-4 年中技术盘点

生成式 AI 的发展 | 社区征文

BROKEN

年中技术盘点

笔记软件哪个好用?36款好用的笔记软件合集推荐!

彭宏豪95

效率工具 markdown 在线工具 Mac笔记软件 笔记应用

从零开始实现Go搜索引擎(一)

geange

搜索引擎 lucene #数据库 FST #go

C语言如何实现DES加密与解密

芯动大师

大模型基础学习

天天向上

《Programming Abstractions In C》阅读笔记p69-p71

codists

代码随想录 Day21 - 二叉树(七)

jjn0703

一文读懂Hhybrid App开发模式

没有用户名丶

shardingsphere配置读写分离集群(1主2从结构)

zhengzai7

读写分离 ShadingSphere

Java 踩坑 2|Feign Client 访问到 Consul 脏节点/故障节点

itschenxiang

Java Consul springboot

当未经检查的自动扩缩造成12万美元的云支出时_云计算_InfoQ精选文章