2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

因网络配置错误,Cloudflare 发生 27 分钟中断

  • 2020-09-07
  • 本文字数:932 字

    阅读完需:约 3 分钟

因网络配置错误,Cloudflare发生27分钟中断

Cloudflare是一家从事 Web 性能和可靠性保证的公司,最近,它的网络性能和服务出现了部分中断,持续了 27 分钟。Cloudflare 主干网中的一个错误导致了这次中断,导致整个网络的流量下降了 50%。CloudFlare CTO John Graham-Cumming 在博文中澄清,这次中断不是由任何类型的攻击或破坏引起的。


Graham-Cumming 表示,公司的网络工程团队更新了一个路由器配置,以便减少网络拥塞,解决一个不相关的问题。问题出在主干网从纽瓦克到芝加哥之间的一个分段上。配置上的错误导致所有的通信通过主干网被发送到亚特兰大路由器,给路由器造成巨大的负载。


这导致连接到亚特兰大的 Cloudflare 网络位置不可用。受影响的 20 个地点分别是圣何塞、达拉斯、西雅图、洛杉矶、芝加哥、华盛顿特区、里士满、纽瓦克、亚特兰大、伦敦、阿姆斯特丹、法兰克福、巴黎、斯德哥尔摩、莫斯科、圣彼得堡、圣保罗、库里提巴和阿雷格里港。


Twitter 用户开始报告服务出现故障,League of Legends、Deliveroo、Discord、Feedly、GitLab、Medium、Patreon、Politico 和 Shopify 等网站都受到了影响。


Graham-Cumming 向大家道歉,并对主干网的配置做了一个全面的修改,以防止这种中断再次发生。Cloudflare 首席执行官 Matthew Prince 进一步透露了细节,他在推特上写道:“根本原因是主干网上的路由器配置错误。我们已经采取了防护措施,以确保在未来类似的错误在不会造成问题。”


网络论坛上既有支持的也有表示怀疑的。在 Reddit 上,一位名叫 rotarychainsaw 的用户对容易犯的小错误(比如输入错误)表示同情,“我的意思是……谁以前没有犯过这样的错误呢?”其他几个评论者在同一个帖子对审核过程提出了质疑,hennirl 问道:“我很好奇这个变更是如何通过变更审核的。他们肯定有不同的配置变化,至少有两波人在看吧?……”。


2019 年 7 月 2 日也发生了一次类似的中断,当时 Cloudflare 网站抛出了 502 错误,原因是 CPU 利用率大幅上升。Jerome Fleury 在推特上敦促用户提出(“困难的”)问题,他说宕机让他们学到了“很多教训”。


有兴趣的读者可以在 InfoQ 与 Ryan kitchen 的相关播客以及Learning from Incidents博客中看到更多关于后期剖析、“根源”问题、克服学习障碍等话题。


原文链接


Cloudflare’s 27 Minutes Outage Explained


2020-09-07 17:142472

评论

发布
暂无评论
发现更多内容

自建大数据平台迁移腾讯云EMR最佳实践

腾讯云大数据

EMR

低代码如何提高生产力?

互联网工科生

低代码 项目开发 JNPF

如何根据获取到的商品信息制定更加精准的营销策略?

技术冰糖葫芦

API 文档

技术人的 2023 总结|火山引擎开发者社区联合 InfoQ 写作社区第四届有奖征文获奖公布!

InfoQ写作社区官方

云原生 音视频 火山引擎 热门活动 #大模型

348字节实现精简版吃豆人小游戏

南城FE

JavaScript 前端 游戏

SDK对比测评|如何科学做直播产品技术选型?

音视频开发_AIZ

音视频 技术选型 直播推流 音视频技术 测评对比

IT外包助力企业数字化转型案例分享

Ogcloud

外包 IT 外包公司 外包项目 IT 运维

用爱发电,分享快乐,真·免费GM公益服游戏!

echeverra

公益服

Kosmos实现无状态工作负载跨集群平滑扩展

畅聊云原生

从HumanEval到CoderEval: 你的代码生成模型真的work吗?

云计算 软件开发 华为云

Amazon CTO Werner Vogels:2024年及未来四大技术趋势预测

亚马逊云科技 (Amazon Web Services)

re:Invent AIGC Amazon S3 大语言模型

关于低代码的常见误解

代码生成器研究

袋鼠云产品功能更新报告08期|近百项全新功能和优化,你要的都在这里!

袋鼠云数栈

大数据 数据中台 产品更新 产品功能

从 Oracle 到 TiDB,全链路数据迁移平台核心能力和杭州银行迁移实践

PingCAP

数据库 数据库迁移 TiDB 银行业

案例解析关于ArkUI框架中ForEach的潜在陷阱与性能优化

华为云开发者联盟

鸿蒙 开发 华为云 HarmonyOS 华为云开发者联盟

全面预算管理平台:让企业管理智慧升级

智达方通

智慧管理 全面预算管理

低代码不适合做哪些应用?

代码生成器研究

Kosmos介绍

畅聊云原生

零束科技:博睿数据是智能化路上的可靠“守护者”

博睿数据

#运维

交易所开发:服务为您的企业提供支持

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

RUM增强APP端快照配置全量会话回放与自定义协议网络请求采集功能

博睿数据

JNPF低代码平台详解 -- 系统架构

树上有只程序猿

低代码 应用开发 JNPF

谁说低代码做不了复杂的企业应用?

代码生成器研究

IT服务外包的优点有哪些?

Ogcloud

外包 IT 外包公司 外包项目 IT 运维

国内开源的低代码框架有哪些?

代码生成器研究

因网络配置错误,Cloudflare发生27分钟中断_服务革新_Aditya Kulkarni_InfoQ精选文章