
Azure Front Door(ADF)是微软的高级云内容分发网络(Content Delivery Network,CDN),旨在为全球客户提供快速、可靠和安全的访问,以获取客户应用程序的静态和动态网页内容。这项服务最近经历了近 9 小时的全球服务中断。
ADF 中断是由一个有缺陷的控制平面配置更改触发的,这导致 Microsoft 365、Xbox Live、Azure 门户和数千个客户网站几乎陷入瘫痪,直到分阶段恢复服务才回归正常。此外,中断的影响范围广泛,这表明了整个微软生态系统及其客户对作为中心化边缘网络的 ADF 的深度依赖。
在事后审查(Post Incident Review,PIR)中,公司解释了核心技术的故障:
Azure Front Door(AFD)中一个无意的租户配置更改触发了广泛的服务中断,影响了依赖 AFD 进行全球内容分发的微软服务和客户应用程序。更改引入了无效或不一致的配置状态,导致大量 AFD 节点无法正确加载,并导致下游服务的延迟增加、超时和连接错误。
安全机制的关键故障加剧了问题。配置更改被允许传播,因为:
我们旨在校验和阻止所有错误部署的保护机制由于软件缺陷而失败,这允许部署绕过了安全验证。
根据 Windows 论坛帖子,服务中断因身份耦合而加剧,当相同的错误配置边缘网络影响到核心服务时,如 Entra ID(Azure AD),登录失败出现了向外扩散,表现为电子邮件、协作、游戏和管理控制台的停机。中断还导致主要的消费连锁店出现了问题,报告称星巴克和 Dairy Queen 的系统受到了干扰。
这一事件立即引发了 SRE 和平台架构师之间关于中心化、全球控制平面固有脆弱性的讨论。Hacker News 上的一位评论者指出:
这里的关键是控制平面故障。当你的身份提供商(Entra ID)和你的全球边缘网络(AFD)耦合并依赖于单一的、有缺陷的部署管道进行配置时,这样你就创造了一个架构反模式。爆炸半径不是偶然的,这是一个设计选择。
Kentikinc 的互联网分析主管 Doug Madory 在一条推文中回应了这一观点:
即使在超大规模云中,最薄弱的环节不是硬件,而是配置自动化。一次糟糕的推送可以击倒全球边缘网络。
微软通过标准 SRE 手册执行了快速的控制平面遏制策略,以稳定系统:
在缓解之后,微软暂时阻止了所有新的客户配置更改到 AFD 上,以确保部署管道安全修复。
微软的服务恢复迅速,但这一事件凸显了,在超大规模环境下,小的控制平面错误可能会产生严重的下游后果,需要供应商和客户采取主动的缓解策略,正如 Wayne Workman 在 LinkedIn帖子中评论的那样:
公共云是有史以来最复杂的系统之一。它们会时不时地出现故障……你真正需要问自己的问题是:当中断发生时,事情是否按照你的意图进行?
查看英文原文: Azure Front Door Outage: How a Single Control-Plane Defect Exposed Architectural Fragility








评论