2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

手动处理网络钓鱼 URL 是如何导致 Cloudflare R2 宕机的

  • 2025-03-26
    北京
  • 本文字数:1413 字

    阅读完需:约 5 分钟

手动处理网络钓鱼 URL 是如何导致 Cloudflare R2 宕机的

由于在处理网络钓鱼报告时的人为错误和管理工具中缺乏充分的验证保障措施,Cloudflare 在 2 月 5 日发生了一起影响其 R2 网关(R2 Gateway)服务的故障。在对一个网络钓鱼 URL 进行常规处置时,R2 服务被意外关闭了,从而导致众多其他 Cloudflare 服务中断或受到干扰,并且持续了一个多小时。


根据 Cloudflare 在第二天发布的故障报告,R2 网关服务由于一名 Cloudflare 员工试图封锁托管在 Cloudflare R2 服务上的一个网络钓鱼网站而被关闭。所有涉及 R2 存储桶和对象的操作,包括上传、下载和元数据操作,都受到了影响。Cloudflare 产品资深总监 Matt Silverlock 和 Javier Castro 解释道:


该故障是由于人为错误和在对托管在 R2 上的网络钓鱼网站进行常规滥用处置过程中缺乏充分的验证保障措施而导致的。对该投诉采取的行动导致对该网站进行了高级产品禁用操作,这导致了负责 R2 API 的生产 R2 网关服务被禁用。



来源:Cloudflare 博客


Cloudflare R2 存储是一种与 S3 兼容的对象存储服务,不收取出口费用,自 2022 年以来一直普遍可用,是 Cloudflare 的核心产品之一。尽管该公司强调此次故障并未导致 R2 内的数据丢失或损坏,但许多服务都受到了级联影响。流(Stream)、图(Images)和矢量化(Vectorize)业务经历了停机或显著的高错误率。与此同时,在主事件窗口期间,只有极小部分(0.002%)的 Workers 和 Pages 项目部署失败。Silverlock 和 Castro 补充道:


在 R2 服务级别上,我们的内部 Prometheus 指标显示,由于 R2 的网关服务停止为所有请求提供服务并终止了正在进行的请求,R2 的 SLO 几乎立即降至 0%(…)由于缺乏直接控制来撤销产品禁用操作,以及需要让具有比常规更低级别访问权限的运维团队参与,补救和恢复受到了抑制。然后,R2 网关服务需要重新部署,以便在我们的边缘网络上重建其路由管道。



来源:Cloudflare 博客


故障报告在该故障发生后的几小时内就发布了。在一个热门的 Reddit 帖子中,许多用户对 Cloudflare 的透明度以及其提供报告的详细程度表示赞赏。用户 JakeSteam 写道:


我真的很欣赏这种详细的逐分钟分析,这有助于准确地突出每分钟延迟存在的原因。Cloudflare 的工作做得一如既往的出色,将危机转换为大家的学习机会。


用户 Miasodasto13 补充道:


必须赞扬他们的透明度。此外,我无法想象作为一名工程师经历这样的故障时的肾上腺素飙升。这种感觉一定就像在拆除一个正在滴答作响的定时炸弹。停机时间每过去一分钟,后果就越严重。


Delivery Hero 的资深软件工程师 Amanbolat Balabekov 则 给出 了不同的观点:


人们可能会认为团队会针对这种情况构建专门的内部工具,但具有讽刺意味的是,Cloudflare 的工具恰好在最需要它的时候失效了。看起来就是,要恢复服务,他们需要使用他们自身的服务,这就产生了这种疯狂的循环依赖关系。


Cloudflare 已经制定了几项补救措施和后续步骤,以解决验证漏洞,并防止将来发生类似的故障。这些措施包括限制对产品禁用操作的访问,并要求临时产品禁用动作需要两方批准。此外,该团队正在扩展滥用检查,以防止意外阻止内部主机名,从而减少系统和人为驱动操作的影响范围。


作者介绍

Renato Losio 作为云架构师、技术主管和云服务专家拥有丰富的经验。目前,他住在柏林,远程担任首席云架构师。他的主要兴趣领域包括云服务和关系数据库。他是 InfoQ 的编辑,也是公认的 AWS 数据英雄。你可以在领英上与他联系。


原文链接:

https://www.infoq.com/news/2025/03/cloudflare-incident-r2/

2025-03-26 08:006368

评论

发布
暂无评论

安全无忧:私有化即时通讯软件提升企业内部信息安全的必然选择

BeeWorks

天润融通助力连锁品牌,用知识库应对门店咨询挑战

天润融通

Deep Dive | 应对不固定业务流量场景,Zilliz Cloud Serverless 正式推出

Zilliz

zilliz cloud

如何帮助我们改造升级原有架构——基于TDengine 平台

芯动大师

时序数据库 TDengine征文 架构升级

Apache Flink 流批融合技术介绍

Apache Flink

flink 实时计算 流批一体 流批融合 大数据计算

实现NAS远程下载,Docker部署qBittorrent、Transmission、贝锐花生壳

贝锐

NAS Docker 镜像

我在Marscode用了3天,转行成为Python程序员

TRAE.ai

Python 人工智能 程序员 AI

震撼揭秘:2024年企业最受欢迎的IM即时通讯工具全面分析!

BeeWorks

赋能企业沟通:2024年专业IM即时通讯软件的重要性不可小觑!

BeeWorks

赋能私有化沟通:定制即时通讯与音视频系统助推企业数字化转型

BeeWorks

🎊 NFTScan 浏览器上线三周年并推出 NFTScan OAT 活动!

NFT Research

NFT\ NFTScan

图片压缩格式自适应,真的很省流量!

七牛云

流量 带宽 音视频技术 图片压缩

京东技术专家的修炼之道|“六边形战士”周默分享

京东零售技术

WebViz可视化工具的应用

芯动大师

数业智能心大陆:职场倦怠的新解法

心大陆多智能体

智能体 AI大模型 心理健康 数字心理

从“群聊”到“一单到底”,天润融通工单系统助力品牌服务升级

天润融通

天润融通创新功能,将无效会话转化为企业新商机

天润融通

创始人模式:硅谷领导力的实践方法

无崖子Z

数据驱动,实时监控显威力 —— 淘宝商品详情API助力商家精准营销

技术冰糖葫芦

API Gateway API 接口 API 测试 pinduoduo API

k8s 中的 Ingress 简介

不在线第一只蜗牛

Kubernetes 容器 云原生

华为云,调出AI原生三原色

脑极体

AI

【功能详解】IoTDB 与 ThingsBoard 成功集成!

Apache IoTDB

AutoCAD 2020(cad设计绘图软件) Win&Mac 版下载

你的猪会飞吗

AutoCAD 2024 Mac版 cad 2022安装教程

手动处理网络钓鱼 URL 是如何导致 Cloudflare R2 宕机的_安全_Renato Losio_InfoQ精选文章