写点什么

因网络配置错误,Cloudflare 发生 27 分钟中断

  • 2020-09-07
  • 本文字数:932 字

    阅读完需:约 3 分钟

因网络配置错误,Cloudflare发生27分钟中断

Cloudflare是一家从事 Web 性能和可靠性保证的公司,最近,它的网络性能和服务出现了部分中断,持续了 27 分钟。Cloudflare 主干网中的一个错误导致了这次中断,导致整个网络的流量下降了 50%。CloudFlare CTO John Graham-Cumming 在博文中澄清,这次中断不是由任何类型的攻击或破坏引起的。


Graham-Cumming 表示,公司的网络工程团队更新了一个路由器配置,以便减少网络拥塞,解决一个不相关的问题。问题出在主干网从纽瓦克到芝加哥之间的一个分段上。配置上的错误导致所有的通信通过主干网被发送到亚特兰大路由器,给路由器造成巨大的负载。


这导致连接到亚特兰大的 Cloudflare 网络位置不可用。受影响的 20 个地点分别是圣何塞、达拉斯、西雅图、洛杉矶、芝加哥、华盛顿特区、里士满、纽瓦克、亚特兰大、伦敦、阿姆斯特丹、法兰克福、巴黎、斯德哥尔摩、莫斯科、圣彼得堡、圣保罗、库里提巴和阿雷格里港。


Twitter 用户开始报告服务出现故障,League of Legends、Deliveroo、Discord、Feedly、GitLab、Medium、Patreon、Politico 和 Shopify 等网站都受到了影响。


Graham-Cumming 向大家道歉,并对主干网的配置做了一个全面的修改,以防止这种中断再次发生。Cloudflare 首席执行官 Matthew Prince 进一步透露了细节,他在推特上写道:“根本原因是主干网上的路由器配置错误。我们已经采取了防护措施,以确保在未来类似的错误在不会造成问题。”


网络论坛上既有支持的也有表示怀疑的。在 Reddit 上,一位名叫 rotarychainsaw 的用户对容易犯的小错误(比如输入错误)表示同情,“我的意思是……谁以前没有犯过这样的错误呢?”其他几个评论者在同一个帖子对审核过程提出了质疑,hennirl 问道:“我很好奇这个变更是如何通过变更审核的。他们肯定有不同的配置变化,至少有两波人在看吧?……”。


2019 年 7 月 2 日也发生了一次类似的中断,当时 Cloudflare 网站抛出了 502 错误,原因是 CPU 利用率大幅上升。Jerome Fleury 在推特上敦促用户提出(“困难的”)问题,他说宕机让他们学到了“很多教训”。


有兴趣的读者可以在 InfoQ 与 Ryan kitchen 的相关播客以及Learning from Incidents博客中看到更多关于后期剖析、“根源”问题、克服学习障碍等话题。


原文链接


Cloudflare’s 27 Minutes Outage Explained


2020-09-07 17:142525

评论

发布
暂无评论
发现更多内容

Linux Bridge和Tap关系详解

天翼云开发者社区

云计算 Linux bridge

杭州悦数与伟仕佳杰达成战略合作,共绘图数据库市场新蓝图

悦数图数据库

图数据库 知识图

「软件测试面试题解析」限时优惠,助你高效备战,拿下心仪职位

测试人

软件测试

一键自动化博客发布工具,用过的人都说好(简书篇)

程序那些事

程序那些事 工具技巧

Advanced RAG 05:探讨基于文本内在语义信息的数据分块方法

Baihai IDP

人工智能 程序员 AI rag 检索增强生成

杭州悦数参与国家重点研发计划“高性能可信跨境贸易支付监管关键技术研究”项目

悦数图数据库

Sora新突破!AI生成电影迈向新阶段,配音版Sora登场!将如何改变影视行业?

蓉蓉

人工智能 openai sora

首届超算互联网峰会!天翼云弹性高性能计算E-HPC亮相!

天翼云开发者社区

云计算 高性能计算 互联网峰会

【Android】Binder的Oneway拦截

iofomo

android 源码剖析 拦截器 binder

软件测试学习笔记丨Bug处理流程

测试人

软件测试

「软件测试面试题集解析课」限时优惠,助你高效备战,一举拿下心仪职位

霍格沃兹测试开发学社

春耕司法护农时,阳光便捷驻田间!

天翼云开发者社区

云计算 云服务 云电脑

模型量化与量化在LLM中的应用 | 得物技术

得物技术

算法 性能优化 AIGC LLM 企业号 4 月 PK 榜

Altair 宣布收购 Cambridge Semantics,为新一代企业Data Fabric和生成式 AI 赋能

新消费日报

碳课堂|快速了解标准要点:ISO 14064-1

AMT企源

碳中和 碳达峰 碳管理

穿越周期,天翼云IaaS+PaaS全年市场份额跃居中国公有云市场第三!

新消费日报

Baidu Comate:“AI +”让软件研发更高效更安全

百度安全

英特尔软件定义架构赋能未来智能座舱

最新动态

双栈网络使用什么技术实现总部网络能访问分部网络?

天翼云开发者社区

云计算 安全 网络 ipv6

万界星空科技MES系统中的业务过程管理流程

万界星空科技

生产管理系统 mes 车间管理

三项国际人工智能顶会大奖!拿下!

天翼云开发者社区

人工智能 云计算 天翼云

一本书了解AI的下一个风口:AI Agent

博文视点Broadview

MES管理系统在人工智能方面的应用

万界星空科技

人工智能 智能工厂 mes 万界星空科技

因网络配置错误,Cloudflare发生27分钟中断_服务革新_Aditya Kulkarni_InfoQ精选文章