公有云故障案例分析——Microsoft Azure的飞来人祸_微软_丁雪丰

【ArchSummit】如何通过AIOps推动可量化的业务价值增长和效率提升？>>> 了解详情 



 写点什么

公有云早已飞入寻常百姓家，除了初创的企业，很多大公司也将自己的服务部署在共有云平台上，因此公有云的稳定性和可靠性是十分重要的。平日里谈起公有云，大家总把注意力放在行业老大 Amazon Web Services 上，不太提及 Microsoft Azure，今天就让我们来看一下去年 11 月 Azure 发生的将近 11 个小时的故障。

首先，来回顾一下故障的经过，根据《Update on Azure Storage Service Interruption》这篇官方博客的介绍，这起编号为 3071402 的故障名为“Microsoft Azure Service Incident : Connectivity to multiple Azure Services – Partial Service Interruption”，影响了 19 种 Azure 服务，涉及 12 个 Region，当时似乎只有澳大利亚数据中心幸免于难。

从 11 月 19 日 00:50 发现该问题后的 5 个小时中，多个主要 Region 的存储服务出现问题，大量客户在此之间受到影响；上午 11 点存储故障恢复，大部分客户服务已经恢复，但少数客户的虚拟机由于此前的故障仍存在问题，自动恢复一直持续到 21 日早晨。

讽刺的是多个微软自己的服务也受到了牵连，Windows Store 和 Xbox Live 都受到不同程度的影响。而 Azure 的 Service Health Dashboard 也受故障影响，在故障发生之初尽然显示一切正常，Azure 也真是“醉”了。

一个月后，Azure 团队在其官方博客上就此次故障发表了详细的说明——《Final Root Cause Analysis and Improvement Areas: Nov 18 Azure Storage Service Interruption》，文中剖析了造成故障的原因。本次变更主要是针对 Azure Storage Table Front-Ends 的，目的是减少 CPU 开销，提升存储服务的性能。在测试和预生产环境中，本次变更顺利地通过了健康检查，同时显著提升了系统性能，还解决了几个已知的问题。但是在后续的增量部署中，不幸发生了，Azure Blob Storage Front-Ends 错误地开启了该功能，触发了一个 Bug，导致系统进入死循环无法再提供服务了。几分钟后，监控发现问题，工程师团队在 30 分钟内回滚了 Azure Blob Storage Front-Ends 的变更，对于已经进入死循环的系统进行了重启。

存储系统的故障还影响了虚拟机服务，主要可以将问题归纳为三类，都发生在存储故障和故障恢复阶段：

磁盘挂载超时（大部分虚拟机重启即可恢复）
虚拟机配置失败（仅影响 Windows 虚拟机，Linux 虚拟机没有问题）
虚拟网络编程错误（几小时后工程师团队打了补丁，受影响的虚拟机无需重启即可恢复）

如果说代码的 Bug 未在测试中被发现尚情有可原，那么在换一个灯泡都需要将近50 个工程师参与，流程极为繁琐苛刻的微软，不遵守流程就是不可原谅的了，《Microsoft confirms Azure outage was human error》一文直接就在标题上将其称为“人祸”。

Azure 的部署遵循名为“flighting”的流程，这个流程大致如下：

在内部测试环境进行部署，随后测试并验证其功能；
在预生产环境进行部署，在正常的生产级负载下进行测试；
经过上两步的验证，就能在生产环境中进行小规模部署，一般会部署多个小集群；
每个小集群都通过验证后就能进行更大规模的增量部署了，通常这种部署在地理上是隔离的。

负责本次性能优化的工程师认为该变更已经在生产环境的小集群上正常运行几个星期了，应该没有问题，在整个 Azure 上开启该功能没有太大风险。而配置工具也没有强制遵循增量部署变更的策略，导致该变更被部署到了整个系统上。

所谓没有规矩不成方圆，有了规矩不能贯彻执行也没用，在小公司或者初创团队，避免繁琐的流程的确能够带来很多便捷，但是在大型团队或者一些核心系统中，流程还是必须的。同时，必须还要有系统能够保证流程得以正确执行，人是会犯错的，人是会走捷径的，就像造成本次故障的那位同学，所以才要系统来进行约束。

Hacker News 上围绕 Azure 团队的故障分析展开了讨论，大家都对 Azure 团队的公开透明表示赞赏（其实在 Azure 的官网有个页面专门记录故障，相比某些公司出了问题遮遮掩掩，这种做法显然更受欢迎），同时不少人也在关心造成这次故障的那位同学的命运，一位读者引用了 IBM 的 Thomas Watson 的话：

最近有人问我会不会开除那个给公司造成 60 万美元损失的员工，我说不会，我刚花了 60 万美元培训了他，为什么要让别人来坐享他的经验？

曾经在支付宝的运维团队也有位朋友这么告诉我——“对运维操作要有敬畏之心”，这句话一直被我记在心中，相信他一定是在背了重大故障之后才会有此感悟。估计 Azure 的那位同学后续一定在操作时会更加仔细，遵循规范。

不知各位读者在了解了 Azure 的这次故障后，是否也能有所收获，当然，如果您在工作中也有过类似的经验教训，不妨也和大家分享一下吧。

发布

暂无评论

创作场景

公有云故障案例分析——Microsoft Azure 的飞来人祸

评论

复杂的舆论场，企业该如何保障内容审核安全？

揭秘！用友BIP多维数据库：企业数智化的国产利器

5年经验，不会Java性能优化，面试原地翻车

自从前端用上了低代码，开发速度直接起飞

DevOps｜从腾讯TEG CDC解散聊技术中台价值和建设

MQTT 性能测试入门：常见测试场景和指标

保姆级教程：带你体验华为云测试计划CodeArts TestPlan

万物互联时代，互联网企业为什么需要华为云网站安全解决方案？

第十八届研电赛“安谋科技杯”上海赛区决赛成功举办

SpringBoot——自定义自动配置与起步依赖

复旦大学附属中山医院：利用明道云进行风险管理及器械溯源的实践案例分享

低代码云里雾里，如何择优选择，且看这里

Spring Boot中如何优雅地实现异步调用？

华为云视频封面&摘要服务：让视频内容更具吸引力

创新引擎加速数字时代：揭秘JNPF平台与云计算的完美共舞！

游戏和电商企业活动频繁，华为云网站安全解决方案如何促进业务发展和增长

一文让你从零开始入门 K8s

如何克服嵌入式开发中的各种挑战，构建完善工具链并落地最佳实践？

华为云语音交互服务SIS——与人打交道的智慧软件，非常值得一试

想要快速上线网站?香港虚拟主机助你一臂之力!

分享6个数据可视化软件工具

国产软件崛起，用友引领企业数智化转型新风向

华为云CodeArts Artifact 5大特性，揭秘大型企业制品管理面纱

看北京地铁如何利用数智底座充分发挥数据价值

华为云图像识别Image：技术服务提供商的首选

提高网站可用性需要真家伙，华为云网站高可用解决方案有何亮点？

低代码应用开发平台高效构建业务系统

中移物联车联网项目，在 TDengine 3.0 的应用

基于低代码平台可视化搭建应用

[杂谈] pdfbox 2.0.28 文字水印移除操作(Acrobat/WPS)

蓬勃发展的数智革命：低代码开发平台开启制造业繁荣新纪元！

创作场景

公有云故障案例分析——Microsoft Azure 的飞来人祸

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载