Azure Front Door中断：单控制平面缺陷暴露了架构的脆弱性

Azure Front Door（ADF）是微软的高级云内容分发网络（Content Delivery Network，CDN），旨在为全球客户提供快速、可靠和安全的访问，以获取客户应用程序的静态和动态网页内容。这项服务最近经历了近 9 小时的全球服务中断。

ADF 中断是由一个有缺陷的控制平面配置更改触发的，这导致 Microsoft 365、Xbox Live、Azure 门户和数千个客户网站几乎陷入瘫痪，直到分阶段恢复服务才回归正常。此外，中断的影响范围广泛，这表明了整个微软生态系统及其客户对作为中心化边缘网络的 ADF 的深度依赖。

在事后审查（Post Incident Review，PIR）中，公司解释了核心技术的故障：

Azure Front Door（AFD）中一个无意的租户配置更改触发了广泛的服务中断，影响了依赖 AFD 进行全球内容分发的微软服务和客户应用程序。更改引入了无效或不一致的配置状态，导致大量 AFD 节点无法正确加载，并导致下游服务的延迟增加、超时和连接错误。

安全机制的关键故障加剧了问题。配置更改被允许传播，因为：

我们旨在校验和阻止所有错误部署的保护机制由于软件缺陷而失败，这允许部署绕过了安全验证。

根据 Windows 论坛帖子，服务中断因身份耦合而加剧，当相同的错误配置边缘网络影响到核心服务时，如 Entra ID（Azure AD），登录失败出现了向外扩散，表现为电子邮件、协作、游戏和管理控制台的停机。中断还导致主要的消费连锁店出现了问题，报告称星巴克和 Dairy Queen 的系统受到了干扰。

这一事件立即引发了 SRE 和平台架构师之间关于中心化、全球控制平面固有脆弱性的讨论。Hacker News 上的一位评论者指出：

这里的关键是控制平面故障。当你的身份提供商（Entra ID）和你的全球边缘网络（AFD）耦合并依赖于单一的、有缺陷的部署管道进行配置时，这样你就创造了一个架构反模式。爆炸半径不是偶然的，这是一个设计选择。

Kentikinc 的互联网分析主管 Doug Madory 在一条推文中回应了这一观点：

即使在超大规模云中，最薄弱的环节不是硬件，而是配置自动化。一次糟糕的推送可以击倒全球边缘网络。

微软通过标准 SRE 手册执行了快速的控制平面遏制策略，以稳定系统：

在缓解之后，微软暂时阻止了所有新的客户配置更改到 AFD 上，以确保部署管道安全修复。

微软的服务恢复迅速，但这一事件凸显了，在超大规模环境下，小的控制平面错误可能会产生严重的下游后果，需要供应商和客户采取主动的缓解策略，正如 Wayne Workman 在 LinkedIn帖子中评论的那样：

公共云是有史以来最复杂的系统之一。它们会时不时地出现故障……你真正需要问自己的问题是：当中断发生时，事情是否按照你的意图进行？

查看英文原文： Azure Front Door Outage: How a Single Control-Plane Defect Exposed Architectural Fragility

创作场景

Azure Front Door 中断：单控制平面缺陷暴露了架构的脆弱性