写点什么

因网络配置错误,Cloudflare 发生 27 分钟中断

  • 2020-09-07
  • 本文字数:932 字

    阅读完需:约 3 分钟

因网络配置错误,Cloudflare发生27分钟中断

Cloudflare是一家从事 Web 性能和可靠性保证的公司,最近,它的网络性能和服务出现了部分中断,持续了 27 分钟。Cloudflare 主干网中的一个错误导致了这次中断,导致整个网络的流量下降了 50%。CloudFlare CTO John Graham-Cumming 在博文中澄清,这次中断不是由任何类型的攻击或破坏引起的。


Graham-Cumming 表示,公司的网络工程团队更新了一个路由器配置,以便减少网络拥塞,解决一个不相关的问题。问题出在主干网从纽瓦克到芝加哥之间的一个分段上。配置上的错误导致所有的通信通过主干网被发送到亚特兰大路由器,给路由器造成巨大的负载。


这导致连接到亚特兰大的 Cloudflare 网络位置不可用。受影响的 20 个地点分别是圣何塞、达拉斯、西雅图、洛杉矶、芝加哥、华盛顿特区、里士满、纽瓦克、亚特兰大、伦敦、阿姆斯特丹、法兰克福、巴黎、斯德哥尔摩、莫斯科、圣彼得堡、圣保罗、库里提巴和阿雷格里港。


Twitter 用户开始报告服务出现故障,League of Legends、Deliveroo、Discord、Feedly、GitLab、Medium、Patreon、Politico 和 Shopify 等网站都受到了影响。


Graham-Cumming 向大家道歉,并对主干网的配置做了一个全面的修改,以防止这种中断再次发生。Cloudflare 首席执行官 Matthew Prince 进一步透露了细节,他在推特上写道:“根本原因是主干网上的路由器配置错误。我们已经采取了防护措施,以确保在未来类似的错误在不会造成问题。”


网络论坛上既有支持的也有表示怀疑的。在 Reddit 上,一位名叫 rotarychainsaw 的用户对容易犯的小错误(比如输入错误)表示同情,“我的意思是……谁以前没有犯过这样的错误呢?”其他几个评论者在同一个帖子对审核过程提出了质疑,hennirl 问道:“我很好奇这个变更是如何通过变更审核的。他们肯定有不同的配置变化,至少有两波人在看吧?……”。


2019 年 7 月 2 日也发生了一次类似的中断,当时 Cloudflare 网站抛出了 502 错误,原因是 CPU 利用率大幅上升。Jerome Fleury 在推特上敦促用户提出(“困难的”)问题,他说宕机让他们学到了“很多教训”。


有兴趣的读者可以在 InfoQ 与 Ryan kitchen 的相关播客以及Learning from Incidents博客中看到更多关于后期剖析、“根源”问题、克服学习障碍等话题。


原文链接


Cloudflare’s 27 Minutes Outage Explained


2020-09-07 17:141908

评论

发布
暂无评论
发现更多内容

OpenSSF 安全计划:SBOM 将驱动软件供应链安全

SEAL安全

软件物料清单

Hi,你有一份Code Review攻略待查收!

Jianmu

后端 Code Review 代码规范 SonarQube checkstyle

一场分销裂变活动,不止是发发朋友圈这么简单!

CRMEB

字节跳动埋点数据流建设与治理实践

字节跳动数据平台

字节跳动 数据治理 数据流 埋点治理 数据研发

2022年第一季度消费金融APP用户洞察——总数达4479万人

易观分析

消费金融

好用到爆!GitHub 星标 32.5k+的命令行软件管理神器,功能真心强大!

沉默王二

Java macos GitHub

等保三级密码复杂度是多少?多久更换一次?

行云管家

堡垒机 等级保护 过等保 等保2.0

等保2.0密码要求是什么?法律依据有哪些?

行云管家

网络安全 等保 等保2.0

Vue3 - $attrs 的几种用法(1个或多个根元素、Options API 和 Composition API)

德育处主任

Vue composition-api 组件通信 6月月更 Vue透传

如何使用物联网低代码平台进行画面管理?

AIRIOT

低代码 物联网 低代码开发 低代码开发平台 低代码,项目开发

DevOps 如何帮助前端提升研发效率?

飞算JavaAI开发助手

开源二三事|ShardingSphere 与 Database Mesh 之间不得不说的那些事

SphereEx

数据库 SphereEx Apache ShardingSphere Database Mesh Pisanix

国内首家!EMQ加入亚马逊云科技“初创加速-全球合作伙伴网络计划”

EMQ映云科技

物联网 IoT emq 亚马逊 6月月更

工作流自动化 低代码是关键

力软低代码开发平台

Bit.Store:熊市漫漫,稳定Staking产品或成主旋律

西柚子

Substrate 源码追新导读: 4月底重大更新: Nomination Pool 即将上线, NFT增加锁定功能

彭亚伦

Substrate 波卡 波卡生态

跟着官方文档学 Python 之:简介

甜甜的白桃

Python 零基础 6月月更

鸿蒙发力!HDD杭州站·线下沙龙邀您共建生态

最新动态

NFT双币质押流动性挖矿dapp合约定制

开发微hkkf5566

基于 Nebula Graph 构建百亿关系知识图谱实践

NebulaGraph

知识图谱 Nebula Graph

2022年中国音频市场年度综合分析

易观分析

音频市场

如何制作登录界面

海瞳Seapupil

【ELT.ZIP】OpenHarmony啃论文俱乐部—见证文件压缩系统EROFS

ELT.ZIP

OpenHarmony 压缩数据 压缩算法 ELT.ZIP

【ELT.ZIP】OpenHarmony啃论文俱乐部—数据密集型应用内存压缩

ELT.ZIP

OpenHarmony 压缩数据 压缩算法 ELT.ZIP

Bit.Store:熊市漫漫,稳定Staking产品或成主旋律

鳄鱼视界

在线文本按行批量反转工具

入门小站

工具

带你认识图数据库性能和场景测试利器LDBC SNB

华为云开发者联盟

人工智能 华为云 图数据库

【干货分享】红黑树硬核讲解

C++后台开发

后端开发 红黑树 linux开发 Linux内核 C++开发

什么是 ICMP ?ping和ICMP之间有啥关系?

wljslmz

网络协议 ping ICMP 6月月更

大数据性能提升28%!阿里云新一代本地SSD实例i4开放公测

阿里云弹性计算

大数据 io SSD NoSQL 数据库

因网络配置错误,Cloudflare发生27分钟中断_服务革新_Aditya Kulkarni_InfoQ精选文章