写点什么

腾讯云详解宕机故障:光纤挖断后的 150 秒

  • 2019-03-25
  • 本文字数:1355 字

    阅读完需:约 4 分钟

腾讯云详解宕机故障:光纤挖断后的150秒

3 月 23 日下午 4 点左右,腾讯多个产品出现大规模宕机,暖暖、QQ 飞车,王者荣耀,吃鸡等 90 多个服务受到影响。下午四点半,腾讯云发布公告称:各位用户,2019 年 03 月 23 日 16 时左右,因上海当地网络运营商光纤线路大面积故障,腾讯多个产品业务受到影响。目前运营商正在紧急抢修中,我们也正在积极做容灾处理,业务陆续恢复中。后续恢复进展会及时向各位公布。


3 月 25 日,腾讯云官方微信号发布《光纤挖断后的150秒》正式回应此次宕机事件,笔者摘录了部分内容:


3 月 23 日下午,上海南汇网络光纤因施工被意外挖断,导致该区不少互联网公司的业务受到不同程度的影响。


“大概是从下午 3 点左右开始吧,网吧里面就有不少用户反馈,多款游戏开始出现掉线,无法登陆,甚至无法充值等情况。”来自上海的南汇区的一位网友在微信群里吐槽。这并非个别情况。随即不少群友开始接连反馈遇到类似的问题。


与互联网用户的慌乱鲜明形成对比的是,不少企业用户的情况却相对稳定。据腾讯云的一位用户反馈,故障发生后,他们运维人员立即启动监测,但是未发生业务掉线。


下午 4 点 52 分,腾讯云率先对外公告称,腾讯云平台在 2019 年 03 月 23 日监控到上海电信用户访问腾讯云外网有抖动,目前已经逐渐恢复。


在云服务越来越普及的今天,如何在面对网络故障的情况下,尽可能保证服务的稳定性和连续性,是所有企业都需要重视的问题。

启动智能化流量调度系统

当天下午,腾讯云网络监控平台监测到上海到浙江电信出现小范围公网质量下降。腾讯云随即启动流量智能调度系统,将上海地区公网流量通过腾讯云内部 T 级骨干网,引导至腾讯云广州区电信出口,再由电信骨干网直达浙江电信。


从架构上看,腾讯云公网流量智能调度系统,一方面通过接口自动执行并反馈管理台下发的各种调度和控制信息;另一方面和公网出口设备建立 BGP(公网路由协议)连接,通过采集设备路由信息,根据调度需求向不同路由设备下发流量调度命令,从而实现领先的公网自动化流量工程技术。


此次光纤故障,腾讯云从发现到恢复故障,全程花费了 2 分钟(抖动时间:14:40:15-14:42:45),并且所有流程自动化执行,在 150 秒之内恢复网络。

“四纤三路由”高冗余架构

能否做到上述效果与腾讯云自身高度冗余的网络架构以及智能自愈机制有很大关系。


首先,腾讯云在基础设施的高可用方案为网络的平稳运营提供了重要前提和支撑。腾讯云目前在每个区域,例如上海南汇,引入并划分了多个可用区,可用区之间提供可靠的风火水电物理全隔离,同时又妥善考量了各个可用区之间的网络低延迟,这就从基础设施层面有效保证用户的网络高可用性和稳定性。


另外,从架构层面看,此次光纤故障,腾讯云网络能够在极短时间内自动恢复,一个重要原因要归功于它可用区之间互联的底层网络,这套网络采用了运营商级“四纤三路由”的高冗余架构设计。什么意思呢?通俗一点来说就是腾讯云每个可用区与可用区之间都采用 3 条独立光纤连接(分别来自不同方向),并同时接入两套完全物理分离的波分系统,从而有效保障光纤意外中断时,能够在 50 毫秒级自动切换。



腾讯云四纤三路由高度冗余架构


除此之外,腾讯云波分系统中部署有光时域反射仪,在产生光缆中断时,系统可以主动探测光缆具体中断情况,第一时间精准定位光缆中断的具体位置,并及时反馈给运营商,为此次光缆的顺利修复提供非常准确的信息。


2019-03-25 11:505785
用户头像

发布了 497 篇内容, 共 347.2 次阅读, 收获喜欢 1927 次。

关注

评论 1 条评论

发布
暂无评论
发现更多内容

前端线下培训和线上培训学习哪个更好?

小谷哥

Wallys/industrial wifi6 router/Support OpenWRT /2×2 2.4G&5G

Cindy-wallys

Vue3必会技巧-自定义Hooks

yyds2026

Vue

React生命周期深度完全解读

夏天的味道123

React

从延迟处理讲起,JavaScript 也能惰性编程?

掘金安东尼

前端 11月月更

web前端培训有哪些比较好?

小谷哥

React-diff原理及应用

xiaofeng

React

Vue3, setup语法糖、Composition API全方位解读

yyds2026

Vue

可观测实践|如何利用 Prometheus 精细化观测云产品

阿里巴巴云原生

阿里云 云原生 Prometheus

Webpack中的高级特性

Geek_02d948

webpack

那些年面挂的js手写题

helloworld1024fd

JavaScript

React源码中的dom-diff

夏天的味道123

React

React核心技术浅析

夏天的味道123

React

【LeetCode】验证栈序列Java题解

Albert

算法 LeetCode 11月月更

【云服务器】云服务器哪家好用便宜服务好?

行云管家

云计算 企业上云 云服务器 行云管家

热备与冷备分别是什么意思?怎么通俗理解?

行云管家

高可用 热备 冷备

前端培训机构学习比较好的方法

小谷哥

从零开始实现一个Promise

helloworld1024fd

JavaScript

现在加入写作社区,惊喜等你开启!

InfoQ写作社区官方

热门活动

React-hooks+TypeScript最佳实战

xiaofeng

React

Vue3知识点之数据侦测

yyds2026

Vue

深入浅出文件系统新形态

焱融科技

云计算 高性能 文件存储

分享10个降低PCB成本的技巧!可收藏

华秋PCB

PCB PCB打样 PCB设计

大数据培训自学怎么样?

小谷哥

Sprint产品待办列表的优先级要怎么排?

敏捷开发

项目管理 敏捷开发

为何大企业都纷纷选择低代码做数字化转型?

优秀

数字化 低代码开发

9个GaussDB常用的对象语句

华为云开发者联盟

数据库 后端 华为云 企业号十月 PK 榜

想开发DAYU200,我教你

华为云开发者联盟

开发 华为云 开发板 企业号十月 PK 榜 富设备

React中常见的TypeScript定义实战

xiaofeng

React

java程序员培训和自学的区别

小谷哥

从算力突破到应用全面开花,英特尔与阿里云那些不可不提的合作

科技之家

腾讯云详解宕机故障:光纤挖断后的150秒_服务革新_田晓旭_InfoQ精选文章