写点什么

2018 年十大云宕机事故盘点:主流无一幸免!

  • 2018 年 12 月 27 日
  • 本文字数:2755 字

    阅读完需:约 9 分钟

2018年十大云宕机事故盘点:主流无一幸免!

根据 IDC 今年 7 月份发布的《中国公有云服务市场半年度跟踪报告》显示,阿里云的市场占有率已过 45%,腾讯云达到 10%。在全球市场,根据 Gartner 最新数据显示,亚马逊 AWS 占全球份额的 51.8%;微软 Azure 位列第二位,占比 13.3%;阿里云位列第三位,占比 4.6%;谷歌 Cloud 云服务占比 3.3%;随后是 IBM,占比 1.9%。可见,这几大主流云供应商占据全球绝大部分市场,一旦云服务出现宕机,受影响的企业将不计其数。


2018 年,云计算市场不仅发展迅速,而且问题不断。云供应商与开源社区的矛盾不断升级,主流云厂商均未逃过宕机事件,更有甚者一年出现多次服务宕机,导致企业对公有云的信心持续走低。本文总结了 2018 年前十大云宕机事故,欢迎各位补充经历过的云服务至暗时刻。


1、谷歌云自动化失效导致宕机  1 月 18 日


事故详情:2018 年 1 月 18 日,谷歌云自动化机制失效,导致其 us-central1 和 europe-west3 两大可用区中的计算引擎停运 93 分钟。谷歌对此的回应是“网络编程失效”导致 Autoscaler(自动扩展器)服务无法正常运行,该服务失效意味着新的虚拟机或刚迁移的虚拟机无法与其他可用区虚拟机联系。


补救措施:工程团队手动切换到替换任务,以恢复数据持久层正常运行。


宕机时间:93 分钟


事件后续:谷歌承诺,未来如果配置数据过时,谷歌将停止虚拟机迁移,数据持久层会在长时间运行进程期间重新解析对等体(peer),以便故障发生时迅速切换到替换任务。


2、AWS 宕机致部分 Alexa 失声  3 月 2 日


事故详情:2018 年 3 月 2 日凌晨,依赖 AWS 服务的部分 Alexa 开始出现失声问题,该智能音箱的红色指示灯不停闪烁表明服务出现中断,Alexa 也一直发出系统内置道歉声。随后几小时内,Alexa 又接到了成千上万封投诉。据了解,Alexa 这一故障源于亚马逊 AWS 的网络服务出现问题,其他依赖 AWS 作为骨干网的应用在当天也受到了影响,包括软件开发公司 Atlassian,云通讯公司 Twilio 等。


补救措施:亚马逊 AWS 的在线支持团队对此进行了修复


宕机时间:数小时(因事发凌晨,未在第一时间发酵)


事件后续:亚马逊 AWS 未对此故障进行详细说明,只透露与网络连接有关。


3、AWS 北弗吉尼亚地区数据中心出现硬件问题  5 月 31 日


事故详情:2018 年 5 月 31 日,因北弗吉尼亚地区的数据中心出现硬件故障,AWS 再次出现连接问题。在此事故中,AWS 的核心 EC2 服务,Workspaces 虚拟桌面服务以及 Redshift 数据仓库服务均受到影响。


补救措施:人为修复


宕机时长:30 分钟左右


事件后续:亚马逊公司 S3 的副总裁兼总经理 Mai-Lan Tomsen Bukovec 近日接受采访表示,亚马逊从未见过数据中心崩溃。这意味着,过去的每一次事故都未曾导致整个数据中心的崩溃,AWS 也在系统设计层面进行了改进以防止此类事故发生。


4、微软 Azure 爱尔兰数据中心宕机  6 月 17 日


事故详情:2018 年 6 月 17 日至 18 日,因爱尔兰数据中心的恒温系统出现问题,微软 Azure 被高温影响导致存储和网络中断。


宕机时间:5 小时以上


5、阿里云故障  6 月 27 日


事故详情:2018 年 6 月 27 日 16:21 左右,阿里云出现重大技术故障,16:50 分开始陆续恢复,官方给出的故障时间为 30 分钟左右,恢复时间大概花费一小时。经过技术复盘,阿里给出的故障原因为工程师团队上线自动化运维新功能时,执行了一项变更验证操作,该操作在测试环境中未发生问题,上线后触发未知 bug。


补救措施:人工介入,定位并解决问题


宕机时间:30 分钟,恢复时间花费一小时左右


事件后续:本次事故被定义为 S1 级别,即核心业务重要功能不可用,影响部分用户,造成一定损失。阿里云发布官方声明,表示“对于这次故障,没有借口,我们不能也不该出现这样的失误!我们将认真复盘改进自动化运维技术和发布验证流程,敬畏每一行代码,敬畏每一份托付。”


6、腾讯云云硬盘故障  7 月 20 日


事故详情:2018 年 8 月 5 日,北京清博数控科技有限公司(以下简称“前沿数控”)在官方微博发布了一篇题为《腾讯云给一家创业公司带来的灾难》的博文,文中表明,2018 年 7 月 20 日,腾讯云云硬盘发生故障(腾讯云后期给出的事故原因说明),导致该公司存放的数据全部丢失,并且不能恢复,这是该创业公司近千万元级的平台数据,包括经过长期推广导流积累起来的精准注册用户以及内容数据。


补救措施:腾讯云表示,监控到异常后第一时间向用户告知了故障状态,并立即组织文件系统专家并联合厂商技术专家尝试修复数据。但经过多方努力,最终仍有部分数据完整性校验失败。


事件后续:腾讯云提出“赔偿+补偿”方案,并承诺会继续与“前沿数控”保持沟通,帮助其进行业务恢复。


7、腾讯云宕机  7 月 24 日


事故详情:2018 年 7 月 24 日,用户登录腾讯云时反复出现超时、退出等情况,即便更换运营商,结果也一样。随后,腾讯云发布通知称初步确定是运营商光缆中断,运营商已经找到断点,正在连线中,主要受影响的为广州区域部分用户。


补救措施:运营商第一时间介入抢修


宕机时间:宕机时间不明,恢复时间花费 30 至 40 分钟


8、亚马逊 AWS 故障 Prime Day


事故详情:Prime Day 是亚马逊在全球范围内启动的为期 36 小时的会员促销活动,活动刚开始,亚马逊网站及 App 就同时发生严重宕机,不光电子商务业务受损,亚马逊的其他产品和服务都受到了不同程度的影响。亚马逊对此给出的解释是 AWS 管理控制台出现全球性问题。


宕机时间:故障持续了将近 6 小时


事件后续:AWS 发言人表示,间歇性的 AWS 管理控制台问题并未对亚马逊的消费者业务产生任何有意义的影响。


9、微软云 Azure 数据中心遭雷劈宕机  9 月 4 日


事故详情:9 月 4 日上午,微软 Azure 美国中南区数据中心附近发生雷击在内的恶劣天气,影响冷却系统的电压,导致多个 Azure 服务出现连接问题,客户难以访问存储在该区数据中心的资源。受影响的服务包括 Office365、Active Directory、Visual Studio Online、Visual Studio Team Services 等。


补救措施:9 月 5 日上午,微软工程师已恢复数据中心的电力和大多数网络设备,其他服务也在陆续恢复中。


宕机时间:超过 24 小时


10、谷歌公有云下的 Kubernetes 服务(GKE)宕机  11 月 9 日


事故详情:11 月 9 日,谷歌公有云上提供的 Kubernetes 服务(GKE)节点池建置功能出现异常,维运人员无法透过 Cloud Console UI 建立新节点。


补救措施:谷歌派工程团队调查故障原因,并开始着手维修。谷歌表示,受影响的企业用户可以先改为使用 GCP 内建的 gcloud command,建置新 Kubernetes 节点。


宕机时间:接近 19 小时


在过去几年,云供应商还发生过数起大大小小的故障,随着越来越多的企业和政府机构将数据上云,即便只是一个小小的宕机都可能引发很大的灾难。即便是提供 99.9%可靠性的阿里云,那 0.1%的宕机还是发生了,因此企业不仅要建立完善的灾备保障体系,还应该对灾备系统进行定期演练以防故障发生造成损失。


2018 年 12 月 27 日 08:157127
用户头像
赵钰莹 InfoQ高级编辑

发布了 745 篇内容, 共 440.1 次阅读, 收获喜欢 2392 次。

关注

欲了解 AWS 的更多信息,请访问【AWS 技术专区】

评论 2 条评论

发布
用户头像
该用的还是用
2018 年 12 月 27 日 09:28
回复
用户头像
这些公有云 供应商可信度大打折扣
2018 年 12 月 27 日 08:37
回复
没有更多了
发现更多内容

MySQL 建表为啥还设置个自增 id ?用流水号当主键不正好么?

程序员小航

Java MySQL 开发 工作笔记 流水号

架构师训练营第 1 期 第 4 周作业

李循律

极客大学架构师训练营

快速开发平台,程序员“老师傅”必备

Marilyn

敏捷开发 快速开发 开发工具

java安全编码指南之:输入注入injection

程序那些事

Java java安全编码 java安全 java安全编码指南

架构师训练营第四周课程笔记及心得

Airs

Kubeless 快速入门 | 玩转 Kubeless

donghui

Serverless kubeless

MySQL一个面试问题的思考

薛腾

MySQL

spring-boot-route(十三)整合RabbitMQ

Java旅途

Java Spring Boot RabbitMQ

架构一期第四周作业

Airs

架构师训练营 - 第 4 周学习总结(1 期)

阿甘

初来乍到,请多关照

郑可夫斯基

技术人

钱被扣走了,但是订单却未成功!支付掉单异常最全解决方案

楼下小黑哥

支付宝 微信支付 支付系统 支付

OpenFaas 获得 VMworld 2020 年度最佳 Startup Spotlight 大奖

donghui

Serverless OpenFaas

智能时代,快速开发平台将成为主流软件开发工具

Marilyn

敏捷开发

商业智能(Business Intelligence)系统的使用及设计原则

Marilyn

敏捷开发 快速开发 商业智能

架构师训练营 - 第 4 周课后作业(1 期)

阿甘

Scala编程基础笔记

郑可夫斯基

scala

Go发起HTTP2.0请求流程分析(前篇)

Gopher指北

HTTP HTTP2.0 Go 语言

JAVA代码生成器,快速开发平台之魂

Marilyn

Java 敏捷开发 快速开发 开发工具

极客大学-架构师训练营第一期 - 第四周作业

Black Eyed Peter

极客大学架构师训练营

游戏夜读 | 怎么做联网五子棋?

game1night

为了省钱,我用1天时间把PHP学完,装进DDD领域驱动设计里!

小傅哥

php 设计模式 小傅哥 架构师

XJR企业级软件快速开发平台规范

Marilyn

程序员 敏捷开发 软件设计

深入分析软件快速开发平台与传统软件开发方案的优缺点

Marilyn

敏捷开发

Vidyo的解决方案到底是什么?有哪些特点?

dwqcmo

音视频 集成架构 解决方案 智能硬件

GitHub 上开源了一个很邪恶的项目!女生勿近,18香警告...

程序员生活志

【架构师训练营第 1 期 04 周】 学习总结

Bear

极客大学架构师训练营

JAVA & VUE ,分离式开发平台建造思路

Marilyn

Java Vue 敏捷开发

摆脱复杂烧脑的程序代码,利用快速开发平台轻轻松松做软件

Marilyn

敏捷开发 快速开发

标本兼治,程序员用它整体提升公司效率

Marilyn

敏捷开发 快速开发

低代码开发平台,来自“未来”的软件开发方案

Marilyn

敏捷开发

Flutter 自动化测试

Flutter 自动化测试

2018年十大云宕机事故盘点:主流无一幸免!-InfoQ