2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

手动处理网络钓鱼 URL 是如何导致 Cloudflare R2 宕机的

  • 2025-03-26
    北京
  • 本文字数:1413 字

    阅读完需:约 5 分钟

手动处理网络钓鱼 URL 是如何导致 Cloudflare R2 宕机的

由于在处理网络钓鱼报告时的人为错误和管理工具中缺乏充分的验证保障措施,Cloudflare 在 2 月 5 日发生了一起影响其 R2 网关(R2 Gateway)服务的故障。在对一个网络钓鱼 URL 进行常规处置时,R2 服务被意外关闭了,从而导致众多其他 Cloudflare 服务中断或受到干扰,并且持续了一个多小时。


根据 Cloudflare 在第二天发布的故障报告,R2 网关服务由于一名 Cloudflare 员工试图封锁托管在 Cloudflare R2 服务上的一个网络钓鱼网站而被关闭。所有涉及 R2 存储桶和对象的操作,包括上传、下载和元数据操作,都受到了影响。Cloudflare 产品资深总监 Matt Silverlock 和 Javier Castro 解释道:


该故障是由于人为错误和在对托管在 R2 上的网络钓鱼网站进行常规滥用处置过程中缺乏充分的验证保障措施而导致的。对该投诉采取的行动导致对该网站进行了高级产品禁用操作,这导致了负责 R2 API 的生产 R2 网关服务被禁用。



来源:Cloudflare 博客


Cloudflare R2 存储是一种与 S3 兼容的对象存储服务,不收取出口费用,自 2022 年以来一直普遍可用,是 Cloudflare 的核心产品之一。尽管该公司强调此次故障并未导致 R2 内的数据丢失或损坏,但许多服务都受到了级联影响。流(Stream)、图(Images)和矢量化(Vectorize)业务经历了停机或显著的高错误率。与此同时,在主事件窗口期间,只有极小部分(0.002%)的 Workers 和 Pages 项目部署失败。Silverlock 和 Castro 补充道:


在 R2 服务级别上,我们的内部 Prometheus 指标显示,由于 R2 的网关服务停止为所有请求提供服务并终止了正在进行的请求,R2 的 SLO 几乎立即降至 0%(…)由于缺乏直接控制来撤销产品禁用操作,以及需要让具有比常规更低级别访问权限的运维团队参与,补救和恢复受到了抑制。然后,R2 网关服务需要重新部署,以便在我们的边缘网络上重建其路由管道。



来源:Cloudflare 博客


故障报告在该故障发生后的几小时内就发布了。在一个热门的 Reddit 帖子中,许多用户对 Cloudflare 的透明度以及其提供报告的详细程度表示赞赏。用户 JakeSteam 写道:


我真的很欣赏这种详细的逐分钟分析,这有助于准确地突出每分钟延迟存在的原因。Cloudflare 的工作做得一如既往的出色,将危机转换为大家的学习机会。


用户 Miasodasto13 补充道:


必须赞扬他们的透明度。此外,我无法想象作为一名工程师经历这样的故障时的肾上腺素飙升。这种感觉一定就像在拆除一个正在滴答作响的定时炸弹。停机时间每过去一分钟,后果就越严重。


Delivery Hero 的资深软件工程师 Amanbolat Balabekov 则 给出 了不同的观点:


人们可能会认为团队会针对这种情况构建专门的内部工具,但具有讽刺意味的是,Cloudflare 的工具恰好在最需要它的时候失效了。看起来就是,要恢复服务,他们需要使用他们自身的服务,这就产生了这种疯狂的循环依赖关系。


Cloudflare 已经制定了几项补救措施和后续步骤,以解决验证漏洞,并防止将来发生类似的故障。这些措施包括限制对产品禁用操作的访问,并要求临时产品禁用动作需要两方批准。此外,该团队正在扩展滥用检查,以防止意外阻止内部主机名,从而减少系统和人为驱动操作的影响范围。


作者介绍

Renato Losio 作为云架构师、技术主管和云服务专家拥有丰富的经验。目前,他住在柏林,远程担任首席云架构师。他的主要兴趣领域包括云服务和关系数据库。他是 InfoQ 的编辑,也是公认的 AWS 数据英雄。你可以在领英上与他联系。


原文链接:

https://www.infoq.com/news/2025/03/cloudflare-incident-r2/

2025-03-26 08:005293

评论

发布
暂无评论

线程与线程池的那些事之线程池篇(万字长文)

秦怀杂货店

线程 线程池 并发

Windows11要来啦!!!

学神来啦

win10 win11

以资源为中心的计算机和现实分析

型火🔥

架构 分布式 操作系统 资源

爱了,天猫“618”亿级高并发设计实战手册,限时分享

Java架构师迁哥

欧洲杯与618:“夏季限定”MVP诞生记

脑极体

5分钟速读之Rust权威指南(二十六)Drop

wzx

rust

工信部发文将整治涉诈电话卡:打击网络诈骗必须釜底抽薪

石头IT视角

Gson的快速使用

卢卡多多

json Gson 6月日更

计算机性能测试

若尘

计算机组成原理 6月日更

浅析Angular数据状态管理框架:NgRx/Store

devpoint

angular.js angular store 6月日更

深入了解Spring之上下文

邱学喆

ApplicationContext LifecycleProccesor 事件传播者 ApplicationListener

分布式事务框架seata落地实践

有道技术团队

分布式 大前端

如何在 Vue 的计算属性中传递参数

devpoint

Vue vue2 6月日更

原以为哈夫曼树、哈夫曼编码很难,结果大佬用6张图就讲明白了

Java架构师迁哥

一文带大家,认识DPDK基础,踏上网络高级编程之路

奔着腾讯去

c++ 计算机网络 TCP/IP 网络层 网络io

“云边+端”三管齐下,“有蓉”数据库助力四川气象进入天擎时代

脑极体

百度大规模Service Mesh落地实践

百度开发者中心

百度 service

slate-angular 正式开源

PingCode研发中心

angular.js 开源 angular

Flink Checkpoint 和 Large State 调优

Alex🐒

flink 翻译 flink1.13

夏未至,春还在|靠谱点评。

无量靠谱

区块链电子印章平台--加速政务数字化

13530558032

JavaScript 学习(七)

空城机

JavaScript 大前端 6月日更

Kubernetes手记(18)- 高级调度策略

雪雷

k8s 6月日更

新华三亮相未来网络发展大会 共启国家重大科技基础设施(CENI)开放合作

科技热闻

百度后端二面有哪些内容,万字总结(一)

李阿柯

MySQL 面试 索引结构 索引优化

GraphQL 入门指南

PingCode研发中心

开发者 graphql

☕【JVM技术探索】各种类型对象占用内存情况分析(下)

码界西柚

JVM 6月日更 对象大小 对象计算

Redis入门三:事务

打工人!

redis 事务 6月日更

也许已没有也许|靠谱点评

无量靠谱

如何打造一支让人躺平的研发团队?招招让你起不来!

菜根老谭

内卷 躺平

推荐算法团队介绍(十四)

Databri_AI

机器学习 算法 团队 推荐系统

手动处理网络钓鱼 URL 是如何导致 Cloudflare R2 宕机的_安全_Renato Losio_InfoQ精选文章