2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

Cloudflare 全球停机追踪到内部数据库更改

作者:Steef-Jan Wiggers

  • 2025-11-27
    北京
  • 本文字数:1371 字

    阅读完需:约 4 分钟

大小:666.08K时长:03:47
Cloudflare全球停机追踪到内部数据库更改

Cloudflare 最近经历了一次由数据库权限更新引起的全球中断,在其 CDN 和安全服务中引发了广泛的 5xx 错误。

 

中断开始于 11 月 18 日 11 点 20 分左右,阻塞了客户站点的访问,甚至 Cloudflare 自己的团队也无法访问他们的内部仪表板。根据首席执行官 Matthew Prince 发布的事后分析,根本原因是在对ClickHouse数据库集群进行例行改进时出现了细微的退化。

 

工程师们推出了一项旨在通过让用户显式访问表来提高安全性的更改。然而,这个更新对Bot管理系统产生了糟糕的、意料之外的副作用。一个元数据查询,一个历史上返回默认数据库中列的干净列表的元数据查询突然开始从底层 r0 数据库分片中拉取重复行。

 

Prince 在博客文章中解释了技术细节

 

这个变更...导致所有用户都能访问到他们有权访问的表的准确元数据。不幸的是,过去的假设认为,像这样的查询返回的列列表只包括“默认”数据库。

 

这些额外的数据导致“特性文件”(一个用于跟踪机器人威胁的配置集)的大小增加了一倍。Cloudflare 的核心代理软件为这个文件预分配内存以优化性能,但它有一个硬性安全限制,即 200 个特性。当膨胀的文件进入网络时,它突破了这个限制,导致 Bot 管理模块崩溃。

 


(来源:Cloudflare博客文章)

 

由于其表现,这次事件很难诊断。由于数据库更新是逐步推出的,系统每几分钟就在“好”状态和“坏”状态之间切换。这种不稳定的行为最初让工程团队相信他们正在对抗一场超大规模的 DDoS 攻击,而不是内部错误。当 Cloudflare 的外部状态页面也崩溃时,混乱达到了顶峰,这是一个完全的巧合,导致一些人认为支持基础设施正在被攻击。

 

Reddit 上的一个评论者在讨论中评论道:

 

你不会意识到有多少网站使用 Cloudflare,直到 Cloudflare 停止工作。然后你尝试查找有多少网站使用 Cloudflare,但你不能,因为所有会回答你问题的 Google 结果也在使用 Cloudflare。

 

“我们的网络有一段时间无法路由流量,这对我们团队的每个成员来说都是非常痛苦的,”Prince 写道,他指出这是自 2019 年以来公司最严重的服务中断。

 

当用户努力应对服务中断时,Syber Couture 的 CEO Dicky Wong 将这一事件视为多供应商策略的验证。他回应这一事件时评论说,尽管 Cloudflare 提供了一套出色的工具,“爱情与没有婚前协议的婚姻不同。”Wong 认为,风险管理需要向积极的多混合策略转变,以避免定义这次服务中断的“单点物理故障”。

 

r/webdev subreddit上的用户 crazyrebel123 也表达了这种情绪,他指出了当前互联网格局的脆弱性:

 

如今的问题是,只有少数几家大公司运营或拥有互联网上的大部分内容。所以当其中一个坏了,整个互联网都会坏掉。大多数网站现在都运行在 AWS 或其他形式的云服务上。

 

高级技术领袖 Jonathan B.在LinkedIn上加强了这一观点,他批评了组织倾向于为了“简单”而将所有赌注押在单一供应商上。

 

这很简单,是的——直到那个供应商成为每个人都在推特上谈论的服务中断...人们称混合型为“老派”,但说实话?这只是负责任的工程。这是承认服务中断会发生,无论云的侧面标志有多大。

 

最终,通过手动将配置文件的已知正确版本推入分发队列,服务得以恢复。流量在 14:30 UTC 时恢复正常,事件在下午晚些时候完全解决。Cloudflare 表示,它现在正在审查其所有代理模块的故障模式,以确保内存预分配限制在未来更优雅地处理不良输入。

 

原文链接:

https://www.infoq.com/news/2025/11/cloudflare-global-outage-cause/

2025-11-27 09:404

评论

发布
暂无评论

手机背面敲两下,直接召唤豆包截屏答疑!deepseek也适用!

阿星AI工作室

学习 AI 工具 快捷指令

季度报告:海外网红营销服务公司最新趋势与平台政策解读

Wolink

跨境电商 海外社媒营销 海外营销推广 海外红人营销 品牌推广

从流媒体机制看:如何高效、安全地保存推特/X视频

So...

推特视频下载 推特 x

新晋社区之星何晨阳:从使用者到贡献者,我是如何理解并反哺开源?

隐语SecretFlow

开源 程序人生 采访 人生故事 贡献者

TOP 5海外网红推广营销平台深度评测:功能、价格与适用场景全解析

Wolink

跨境电商 海外社媒营销 海外营销推广 品牌出海 海外红人营销

政府机关如何选购RFID智能钥匙柜保障使用留痕?

斯科信息

RFID智能钥匙柜

ngx.location.capture()变量继承

天翼云开发者社区

CDN 网络

静默复制淘口令小程序系统:淘客高效推广的全新解决方案

微擎应用市场

汽车年检审车小程序系统:汽车后市场数字化解决方案

微擎应用市场

数字先锋 | 职业教育大有可为!

天翼云开发者社区

云计算 教育IT基础设施

多云架构时代:解码企业网络安全的全新基因

光联世纪

信息安全 SD-WAN

跨境出海战略全景图:2025从0到1的完整路径与核心决策点

Wolink

跨境电商 海外社媒营销 海外营销推广 品牌出海

火山引擎发布Data Agent新能力,推动用户洞察进入“智能3.0时代”

极客天地

护航“苏超”票务稳健运行!这朵云,靠谱!

天翼云开发者社区

公有云

用Dify搭建自动化工作流,每天节省3小时

测试人

软件测试

2026年社交媒体营销5大趋势:拥抱AI、社交搜索与亲密社群

Wolink

海外社媒营销 海外营销推广 达人营销 海外红人营销

快递鸟打印电子面单 API 深度解析:技术文档对接指南

快递鸟

网络安全防护措施之等保测评是什么?

等保测评

信息安全 数据安全 网络安全」 黑龙江等保测评 哈尔滨等保测评

专家管理系统

深圳亥时科技

第五届测量控制与仪器仪表国际学术会议(MCAI 2025)

搞科研的小刘

机械

火山引擎多模态数据湖解决方案,以新一代数据基座迎接AI Agent时代

极客天地

使用gdb调试core文件

天翼云开发者社区

CDN

电子签唯一入选企业!e签宝上线浙江省海外综合服务平台,助力浙江建设高能级开放强省

科技汇

技术驱动:海外网红营销服务公司如何用AI工具筛选网红与优化广告投放

Wolink

海外营销推广 跨境电商运营 品牌出海 海外红人营销

大河抽奖盲盒分销系统:开启运营 “玩法自由” 新时代

微擎应用市场

第二届智能驾驶与智慧交通国际学术会议(IDST 2025)

搞科研的小刘

智慧交通系统

Coze的“插件宇宙”有多强?一个工作流,打通我的全部办公软件

测吧(北京)科技有限公司

中小企业 RPA 选型的 3个真相和 7个落地步骤

Techinsight

为什么要做等保?黑龙江等保测评服务的核心目标

等保测评

网络安全 信息安全 数据安全 黑龙江等保测评 哈尔滨等保测评

黑龙江企业必看!哪些信息系统需要做等保测评?

等保测评

网络安全 信息安全 数据安全 黑龙江等保测评 哈尔滨等保测评

预算有限?这几个海外平台的免费推广方法也能带来精准流量

Wolink

跨境电商 海外营销推广 海外推广 海外社媒推广 达人营销

Cloudflare全球停机追踪到内部数据库更改_云计算_InfoQ精选文章