限时领|《AI 百问百答》专栏课+实体书(包邮)! 了解详情
写点什么

因网络配置错误,Cloudflare 发生 27 分钟中断

  • 2020-09-07
  • 本文字数:932 字

    阅读完需:约 3 分钟

因网络配置错误,Cloudflare发生27分钟中断

Cloudflare是一家从事 Web 性能和可靠性保证的公司,最近,它的网络性能和服务出现了部分中断,持续了 27 分钟。Cloudflare 主干网中的一个错误导致了这次中断,导致整个网络的流量下降了 50%。CloudFlare CTO John Graham-Cumming 在博文中澄清,这次中断不是由任何类型的攻击或破坏引起的。


Graham-Cumming 表示,公司的网络工程团队更新了一个路由器配置,以便减少网络拥塞,解决一个不相关的问题。问题出在主干网从纽瓦克到芝加哥之间的一个分段上。配置上的错误导致所有的通信通过主干网被发送到亚特兰大路由器,给路由器造成巨大的负载。


这导致连接到亚特兰大的 Cloudflare 网络位置不可用。受影响的 20 个地点分别是圣何塞、达拉斯、西雅图、洛杉矶、芝加哥、华盛顿特区、里士满、纽瓦克、亚特兰大、伦敦、阿姆斯特丹、法兰克福、巴黎、斯德哥尔摩、莫斯科、圣彼得堡、圣保罗、库里提巴和阿雷格里港。


Twitter 用户开始报告服务出现故障,League of Legends、Deliveroo、Discord、Feedly、GitLab、Medium、Patreon、Politico 和 Shopify 等网站都受到了影响。


Graham-Cumming 向大家道歉,并对主干网的配置做了一个全面的修改,以防止这种中断再次发生。Cloudflare 首席执行官 Matthew Prince 进一步透露了细节,他在推特上写道:“根本原因是主干网上的路由器配置错误。我们已经采取了防护措施,以确保在未来类似的错误在不会造成问题。”


网络论坛上既有支持的也有表示怀疑的。在 Reddit 上,一位名叫 rotarychainsaw 的用户对容易犯的小错误(比如输入错误)表示同情,“我的意思是……谁以前没有犯过这样的错误呢?”其他几个评论者在同一个帖子对审核过程提出了质疑,hennirl 问道:“我很好奇这个变更是如何通过变更审核的。他们肯定有不同的配置变化,至少有两波人在看吧?……”。


2019 年 7 月 2 日也发生了一次类似的中断,当时 Cloudflare 网站抛出了 502 错误,原因是 CPU 利用率大幅上升。Jerome Fleury 在推特上敦促用户提出(“困难的”)问题,他说宕机让他们学到了“很多教训”。


有兴趣的读者可以在 InfoQ 与 Ryan kitchen 的相关播客以及Learning from Incidents博客中看到更多关于后期剖析、“根源”问题、克服学习障碍等话题。


原文链接


Cloudflare’s 27 Minutes Outage Explained


2020-09-07 17:141931

评论

发布
暂无评论
发现更多内容

VMware Tools 13.0.0 发布 - 客户机操作系统无缝交互必备组件

sysin

vmware

分布式系统架构:分布式缓存

不在线第一只蜗牛

架构 分布式

ITIL认证工具商-ManageEngine Servicedesk Plus

ServiceDesk_Plus

ITIL IT服务管理 ITIL认证 ITIL工具

“全球金牌敏捷课程” · 2月22-23日CSM认证课程 · Jim老师

ShineScrum

Scrum Master Scrum认证 scrum敏捷开发

数电票:引领会计行业数字化革命的关键力量

用友智能财务

税务 会计

【YashanDB知识库】手工迁移Doris数据到崖山分布式

YashanDB

数据库 yashandb

千万级的大表,如何做性能调优?

不在线第一只蜗牛

数据库 oracle

DeepSeek-V3模型:软件测试智能化的新篇章与挑战

测吧(北京)科技有限公司

测试

QQ设计团队分享:手Q语音消息改版背后的功能设计思路

JackJiang

网络编程 即时通讯 IM

ToDesk云电脑、顺网云、网易云、易腾云、极云普惠云横测对比:探寻电竞最佳拍档

小喵子

云电脑 云游戏 ToDesk ToDesk云电脑

JMeter 与持续集成:自动化测试与压测的无缝对接

测吧(北京)科技有限公司

测试

Java-Beanshell 语法与内置对象解析:如何利用 vars、ctx、prev 优化脚本

测吧(北京)科技有限公司

测试

软件测试丨SDK 功能测试

测试人

软件测试

Svelte 最新中文文档翻译(1)—— 概述与入门指南

冴羽

Vue 前端 Svelte 中文文档 SvelteKit

Svelte 最新中文文档翻译(2)—— .svelte、.svelte.js 和 .svelte.ts 文件

冴羽

Vue 前端 React Svelte SvelteKit

【YashanDB知识库】多csv文件一键式导入yashandb

YashanDB

数据库 yashandb

JMeter 分布式压测:实现大规模压力测试的最佳实践

测吧(北京)科技有限公司

测试

Beanshell 脚本开发实战:提升 JMeter 脚本效率与灵活性 霍格沃兹测试开发 霍格沃兹测试开发​

测吧(北京)科技有限公司

测试

用Golang写了个通用路由器,除了能路由HTTP协议外,还能路由Websocket/Tcp/Udp等协议,欢迎体验

Drunk

golang router 路由 DCE 通用路由

JMeter 脚本开发与优化:解锁 Beanshell 在性能测试中的强大功能

测吧(北京)科技有限公司

测试

【YashanDB知识库】锁冲突检查

YashanDB

数据库 yashandb

深入 JMeter 分布式加压机制:配置与性能优化技巧

测吧(北京)科技有限公司

测试

AI Agent:软件测试自动化的新纪元

测吧(北京)科技有限公司

测试

JMeter 调试技巧:从错误日志到性能瓶颈定位的全面攻略

测吧(北京)科技有限公司

测试

JMeter 执行 JUnit 测试用例:集成与自动化的高效解决方案

测吧(北京)科技有限公司

测试

如何使用 Python 进行文件读写操作?

威哥爱编程

Python

为什么软件测试开发需要智能体(AI Agent)?

测吧(北京)科技有限公司

测试

如何在 JMeter 中自定义 Jar 文件:加解密与扩展功能的实现

测吧(北京)科技有限公司

测试

因网络配置错误,Cloudflare发生27分钟中断_服务革新_Aditya Kulkarni_InfoQ精选文章