写点什么

2018 年十大云宕机事故盘点:主流无一幸免!

2018 年 12 月 27 日

2018年十大云宕机事故盘点:主流无一幸免!

根据 IDC 今年 7 月份发布的《中国公有云服务市场半年度跟踪报告》显示,阿里云的市场占有率已过 45%,腾讯云达到 10%。在全球市场,根据 Gartner 最新数据显示,亚马逊 AWS 占全球份额的 51.8%;微软 Azure 位列第二位,占比 13.3%;阿里云位列第三位,占比 4.6%;谷歌 Cloud 云服务占比 3.3%;随后是 IBM,占比 1.9%。可见,这几大主流云供应商占据全球绝大部分市场,一旦云服务出现宕机,受影响的企业将不计其数。


2018 年,云计算市场不仅发展迅速,而且问题不断。云供应商与开源社区的矛盾不断升级,主流云厂商均未逃过宕机事件,更有甚者一年出现多次服务宕机,导致企业对公有云的信心持续走低。本文总结了 2018 年前十大云宕机事故,欢迎各位补充经历过的云服务至暗时刻。


1、谷歌云自动化失效导致宕机  1 月 18 日


事故详情:2018 年 1 月 18 日,谷歌云自动化机制失效,导致其 us-central1 和 europe-west3 两大可用区中的计算引擎停运 93 分钟。谷歌对此的回应是“网络编程失效”导致 Autoscaler(自动扩展器)服务无法正常运行,该服务失效意味着新的虚拟机或刚迁移的虚拟机无法与其他可用区虚拟机联系。


补救措施:工程团队手动切换到替换任务,以恢复数据持久层正常运行。


宕机时间:93 分钟


事件后续:谷歌承诺,未来如果配置数据过时,谷歌将停止虚拟机迁移,数据持久层会在长时间运行进程期间重新解析对等体(peer),以便故障发生时迅速切换到替换任务。


2、AWS 宕机致部分 Alexa 失声  3 月 2 日


事故详情:2018 年 3 月 2 日凌晨,依赖 AWS 服务的部分 Alexa 开始出现失声问题,该智能音箱的红色指示灯不停闪烁表明服务出现中断,Alexa 也一直发出系统内置道歉声。随后几小时内,Alexa 又接到了成千上万封投诉。据了解,Alexa 这一故障源于亚马逊 AWS 的网络服务出现问题,其他依赖 AWS 作为骨干网的应用在当天也受到了影响,包括软件开发公司 Atlassian,云通讯公司 Twilio 等。


补救措施:亚马逊 AWS 的在线支持团队对此进行了修复


宕机时间:数小时(因事发凌晨,未在第一时间发酵)


事件后续:亚马逊 AWS 未对此故障进行详细说明,只透露与网络连接有关。


3、AWS 北弗吉尼亚地区数据中心出现硬件问题  5 月 31 日


事故详情:2018 年 5 月 31 日,因北弗吉尼亚地区的数据中心出现硬件故障,AWS 再次出现连接问题。在此事故中,AWS 的核心 EC2 服务,Workspaces 虚拟桌面服务以及 Redshift 数据仓库服务均受到影响。


补救措施:人为修复


宕机时长:30 分钟左右


事件后续:亚马逊公司 S3 的副总裁兼总经理 Mai-Lan Tomsen Bukovec 近日接受采访表示,亚马逊从未见过数据中心崩溃。这意味着,过去的每一次事故都未曾导致整个数据中心的崩溃,AWS 也在系统设计层面进行了改进以防止此类事故发生。


4、微软 Azure 爱尔兰数据中心宕机  6 月 17 日


事故详情:2018 年 6 月 17 日至 18 日,因爱尔兰数据中心的恒温系统出现问题,微软 Azure 被高温影响导致存储和网络中断。


宕机时间:5 小时以上


5、阿里云故障  6 月 27 日


事故详情:2018 年 6 月 27 日 16:21 左右,阿里云出现重大技术故障,16:50 分开始陆续恢复,官方给出的故障时间为 30 分钟左右,恢复时间大概花费一小时。经过技术复盘,阿里给出的故障原因为工程师团队上线自动化运维新功能时,执行了一项变更验证操作,该操作在测试环境中未发生问题,上线后触发未知 bug。


补救措施:人工介入,定位并解决问题


宕机时间:30 分钟,恢复时间花费一小时左右


事件后续:本次事故被定义为 S1 级别,即核心业务重要功能不可用,影响部分用户,造成一定损失。阿里云发布官方声明,表示“对于这次故障,没有借口,我们不能也不该出现这样的失误!我们将认真复盘改进自动化运维技术和发布验证流程,敬畏每一行代码,敬畏每一份托付。”


6、腾讯云云硬盘故障  7 月 20 日


事故详情:2018 年 8 月 5 日,北京清博数控科技有限公司(以下简称“前沿数控”)在官方微博发布了一篇题为《腾讯云给一家创业公司带来的灾难》的博文,文中表明,2018 年 7 月 20 日,腾讯云云硬盘发生故障(腾讯云后期给出的事故原因说明),导致该公司存放的数据全部丢失,并且不能恢复,这是该创业公司近千万元级的平台数据,包括经过长期推广导流积累起来的精准注册用户以及内容数据。


补救措施:腾讯云表示,监控到异常后第一时间向用户告知了故障状态,并立即组织文件系统专家并联合厂商技术专家尝试修复数据。但经过多方努力,最终仍有部分数据完整性校验失败。


事件后续:腾讯云提出“赔偿+补偿”方案,并承诺会继续与“前沿数控”保持沟通,帮助其进行业务恢复。


7、腾讯云宕机  7 月 24 日


事故详情:2018 年 7 月 24 日,用户登录腾讯云时反复出现超时、退出等情况,即便更换运营商,结果也一样。随后,腾讯云发布通知称初步确定是运营商光缆中断,运营商已经找到断点,正在连线中,主要受影响的为广州区域部分用户。


补救措施:运营商第一时间介入抢修


宕机时间:宕机时间不明,恢复时间花费 30 至 40 分钟


8、亚马逊 AWS 故障 Prime Day


事故详情:Prime Day 是亚马逊在全球范围内启动的为期 36 小时的会员促销活动,活动刚开始,亚马逊网站及 App 就同时发生严重宕机,不光电子商务业务受损,亚马逊的其他产品和服务都受到了不同程度的影响。亚马逊对此给出的解释是 AWS 管理控制台出现全球性问题。


宕机时间:故障持续了将近 6 小时


事件后续:AWS 发言人表示,间歇性的 AWS 管理控制台问题并未对亚马逊的消费者业务产生任何有意义的影响。


9、微软云 Azure 数据中心遭雷劈宕机  9 月 4 日


事故详情:9 月 4 日上午,微软 Azure 美国中南区数据中心附近发生雷击在内的恶劣天气,影响冷却系统的电压,导致多个 Azure 服务出现连接问题,客户难以访问存储在该区数据中心的资源。受影响的服务包括 Office365、Active Directory、Visual Studio Online、Visual Studio Team Services 等。


补救措施:9 月 5 日上午,微软工程师已恢复数据中心的电力和大多数网络设备,其他服务也在陆续恢复中。


宕机时间:超过 24 小时


10、谷歌公有云下的 Kubernetes 服务(GKE)宕机  11 月 9 日


事故详情:11 月 9 日,谷歌公有云上提供的 Kubernetes 服务(GKE)节点池建置功能出现异常,维运人员无法透过 Cloud Console UI 建立新节点。


补救措施:谷歌派工程团队调查故障原因,并开始着手维修。谷歌表示,受影响的企业用户可以先改为使用 GCP 内建的 gcloud command,建置新 Kubernetes 节点。


宕机时间:接近 19 小时


在过去几年,云供应商还发生过数起大大小小的故障,随着越来越多的企业和政府机构将数据上云,即便只是一个小小的宕机都可能引发很大的灾难。即便是提供 99.9%可靠性的阿里云,那 0.1%的宕机还是发生了,因此企业不仅要建立完善的灾备保障体系,还应该对灾备系统进行定期演练以防故障发生造成损失。


2018 年 12 月 27 日 08:157083
用户头像
赵钰莹 InfoQ高级编辑

发布了 736 篇内容, 共 432.8 次阅读, 收获喜欢 2352 次。

关注

欲了解 AWS 的更多信息,请访问【AWS 技术专区】

评论 2 条评论

发布
用户头像
该用的还是用
2018 年 12 月 27 日 09:28
回复
用户头像
这些公有云 供应商可信度大打折扣
2018 年 12 月 27 日 08:37
回复
没有更多了
发现更多内容

Docker 镜像构建之 Dockerfile

哈喽沃德先生

Docker 容器 微服务 容器技术 容器化

oeasy教您玩转linux010106这儿都有啥 ls

o

柔性电子拥有改变地球的能力吗?

脑极体

Flink-键值分区状态-10

小知识点

scala 大数据 flink

Luajit字节码分析之KSTR

whosemario

lua

第11周总结+作业

林毋梦

Redis系列(二):Redis的5种数据结构及其常用命令

简爱W

硬核科技:莱克立式吸尘器,引领家居清洁“新态度”

InfoQ_967a83c6d0d7

GitMaster 更新v1.9.0,支持Gitea,Gist拥抱黑暗模式

neo

gitlab tree gitee GitHub、

面经手册 · 第7篇《ArrayList也这么多知识?一个指定位置插入就把谢飞机面晕了!》

小傅哥

Java 数据结构 面试 小傅哥 ArrayList

币期权DAPP 8月28日全球同步耀世上线,掀起币圈追捧热潮

InfoQ_967a83c6d0d7

难以遏制的人因差错-Go的日志工具之痛

田晓亮

Go 微服务

Android |《看完不忘系列》之dagger

哈利迪

android

Redis系列(一):Redis简介及环境安装

简爱W

从6大应用场景,看边缘计算落地生根

BoCloud博云

边缘计算 PaaS 容器云 云平台 博云

“全球+”浪潮下,企业出海选择合适的“技术船舶”成关键

华为云开发者社区

网络 华为云 企业出海 网络加速 宽带

云原生技术采用增加,全球60%后端开发人员都在使用容器 | 趋势分享

BoCloud博云

云计算 容器 云原生 PaaS 博云

莱卡、宾利都在用,英特尔oneAPI渲染工具带来高质量视觉体验

新闻科技资讯

MySQL redo与undo日志解析

Simon

MySQL Redo MySQL日志

炒股不要看K线图(分享最近学习投资的一点心得)

Nick

投资 理财

CRM企业到底该不该做PaaS?

ToB行业头条

PaaS SaaS CRM

温故知新——Spring AOP(二)

牛初九

spring aop ioc

我也没想到 Springboot + Flowable 开发工作流会这么简单

程序员内点事

java 14

不得不了解系列之限流

梦朝思夕

限流

Java | 你知道快速搭建一个spring boot项目该怎么做吗?

简爱W

零代码简史

明道云

SaaS

全民加速节:动态加速在在线教育应用上的最佳实践

阿里云Edge Plus

在线教育 CDN

性能相关,内存

Linuxer

性能

GrowingIO AWS 成本优化之路

GrowingIO技术专栏

AWS 成本优化

华为云会议的前世今生

华为云开发者社区

直播 云服务 华为云 视频编码 视频会议

新金融分布式架构之SOFAStack解决方案

阿里云金融线TAM SRE专家服务团队

开源中间件技术学习路线

开源中间件技术学习路线

2018年十大云宕机事故盘点:主流无一幸免!-InfoQ