写点什么

因网络配置错误,Cloudflare 发生 27 分钟中断

  • 2020-09-07
  • 本文字数:932 字

    阅读完需:约 3 分钟

因网络配置错误,Cloudflare发生27分钟中断

Cloudflare是一家从事 Web 性能和可靠性保证的公司,最近,它的网络性能和服务出现了部分中断,持续了 27 分钟。Cloudflare 主干网中的一个错误导致了这次中断,导致整个网络的流量下降了 50%。CloudFlare CTO John Graham-Cumming 在博文中澄清,这次中断不是由任何类型的攻击或破坏引起的。


Graham-Cumming 表示,公司的网络工程团队更新了一个路由器配置,以便减少网络拥塞,解决一个不相关的问题。问题出在主干网从纽瓦克到芝加哥之间的一个分段上。配置上的错误导致所有的通信通过主干网被发送到亚特兰大路由器,给路由器造成巨大的负载。


这导致连接到亚特兰大的 Cloudflare 网络位置不可用。受影响的 20 个地点分别是圣何塞、达拉斯、西雅图、洛杉矶、芝加哥、华盛顿特区、里士满、纽瓦克、亚特兰大、伦敦、阿姆斯特丹、法兰克福、巴黎、斯德哥尔摩、莫斯科、圣彼得堡、圣保罗、库里提巴和阿雷格里港。


Twitter 用户开始报告服务出现故障,League of Legends、Deliveroo、Discord、Feedly、GitLab、Medium、Patreon、Politico 和 Shopify 等网站都受到了影响。


Graham-Cumming 向大家道歉,并对主干网的配置做了一个全面的修改,以防止这种中断再次发生。Cloudflare 首席执行官 Matthew Prince 进一步透露了细节,他在推特上写道:“根本原因是主干网上的路由器配置错误。我们已经采取了防护措施,以确保在未来类似的错误在不会造成问题。”


网络论坛上既有支持的也有表示怀疑的。在 Reddit 上,一位名叫 rotarychainsaw 的用户对容易犯的小错误(比如输入错误)表示同情,“我的意思是……谁以前没有犯过这样的错误呢?”其他几个评论者在同一个帖子对审核过程提出了质疑,hennirl 问道:“我很好奇这个变更是如何通过变更审核的。他们肯定有不同的配置变化,至少有两波人在看吧?……”。


2019 年 7 月 2 日也发生了一次类似的中断,当时 Cloudflare 网站抛出了 502 错误,原因是 CPU 利用率大幅上升。Jerome Fleury 在推特上敦促用户提出(“困难的”)问题,他说宕机让他们学到了“很多教训”。


有兴趣的读者可以在 InfoQ 与 Ryan kitchen 的相关播客以及Learning from Incidents博客中看到更多关于后期剖析、“根源”问题、克服学习障碍等话题。


原文链接


Cloudflare’s 27 Minutes Outage Explained


2020-09-07 17:141915

评论

发布
暂无评论
发现更多内容

入门Python之后还是搞不定面试、做不来项目,推荐读读这本书

图灵教育

Python 编程 程序员

运维人必知必会的Zabbix核心命令

博文视点Broadview

CityClub 北京站马上开始!线下沙龙等你来!

InfoQ写作社区官方

热门活动

MacOS 系统如何把PHP版本升级到 7.4或者更高的版本呢,今天教程来啦

CRMEB

王者荣耀商城异地多活架构设计

tom

「架构实战营」模块七 王者荣耀商城异地多活架构设计

hxb

「架构实战营」

Linux驱动开发-编写MMA7660三轴加速度传感器

DS小龙哥

4月月更

Java培训-怎样通过 Bucket4j 提供速率限制

@零度

JAVA开发 Bucket4j

写作社区 2 周年,全员狂欢燥起来!

InfoQ写作社区官方

热门活动 InfoQ写作社区2周年

Springfox swagger2 API文档

Rubble

4月日更

一文扫清DDD核心概念理解障碍

慕枫技术笔记

后端 4月月更

如何使用阿里云容器服务保障容器的内存资源质量

阿里巴巴云原生

在不确定性中寻找确定性(28/100)

hackstoic

创业 创业心态

团队在线协作文档工具推荐

小炮

团队协作 文档协作

如何在云端重塑内容生产?来看这场虚拟人主持的发布会

阿里云CloudImagine

阿里云 音视频 视频剪辑 智能生产 视频云

Redis Stream 专为队列而生,别再用 List 实现队列了

码哥字节

Redis Stream Redis 数据结构 4月月更

幸运哈希值竞猜游戏系统开发方案

薇電13242772558

区块链 哈希值

重学架构之王者荣耀商城异地多活架构设计

陈华英

架构实战营 「架构实战营」

web前端培训-ES6 教程:全面了解 ES6 模块

@零度

前端 ES6

OneBlock | 区块链人才聚集地,面向全球的Substrate 开发者社区

One Block Community

技术社区 #区块链#

智能足球裁判,能否突破专业运动的技术瓶颈​

这不科技

解读谷歌Pathways架构(一):Single-controller与Multi-controller

OneFlow

人工智能 机器学习 深度学习 架构 深度学习框架

基于云服务器ECS搭建网页游戏《浪剑天下》

阿里云弹性计算

玩转ECS 游戏服务器

波卡动态 | Moonbeam 上第一个3D NFT项目宣布合作

One Block Community

区块链 以太坊 polkadot 波卡 Moonbeam

大数据培训-Hive高频面试题分享

@零度

hive 大数据开发

一文搞懂Netty发送数据全流程 | 你想知道的细节全在这里

bin的技术小屋

网络编程 Netty Java’ 4月月更 Reactor多线程

CESS:波卡生态去中心化数据存储的未来

One Block Community

区块链 云存储 去中心化存储 CESS

招聘 | 多家区块链项目招募开发者!

One Block Community

区块链 招聘 波卡

深度学习,如何选择GPU服务器?

Finovy Cloud

人工智能 深度学习 GPU服务器

解决两大难题,TDengine 助力亿咖通打造自动驾驶技术典范

TDengine

数据库 tdengine 物联网

EMQ 映云科技 & 阿里云推出“一站式工业数字化解决方案”,共建产业数据湖生态圈

EMQ映云科技

阿里云 开源 物联网 IoT emq

因网络配置错误,Cloudflare发生27分钟中断_服务革新_Aditya Kulkarni_InfoQ精选文章