2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

Azure Front Door 中断:单控制平面缺陷暴露了架构的脆弱性

作者:Steef-Jan Wiggers

  • 2025-11-17
    北京
  • 本文字数:1093 字

    阅读完需:约 4 分钟

大小:548.17K时长:03:07
Azure Front Door中断:单控制平面缺陷暴露了架构的脆弱性

Azure Front Door(ADF)是微软的高级云内容分发网络(Content Delivery Network,CDN),旨在为全球客户提供快速、可靠和安全的访问,以获取客户应用程序的静态和动态网页内容。这项服务最近经历了近 9 小时的全球服务中断。

 

ADF 中断是由一个有缺陷的控制平面配置更改触发的,这导致 Microsoft 365、Xbox Live、Azure 门户和数千个客户网站几乎陷入瘫痪,直到分阶段恢复服务才回归正常。此外,中断的影响范围广泛,这表明了整个微软生态系统及其客户对作为中心化边缘网络的 ADF 的深度依赖。

 

在事后审查(Post Incident Review,PIR)中,公司解释了核心技术的故障:

Azure Front Door(AFD)中一个无意的租户配置更改触发了广泛的服务中断,影响了依赖 AFD 进行全球内容分发的微软服务和客户应用程序。更改引入了无效或不一致的配置状态,导致大量 AFD 节点无法正确加载,并导致下游服务的延迟增加、超时和连接错误。

 

安全机制的关键故障加剧了问题。配置更改被允许传播,因为:

我们旨在校验和阻止所有错误部署的保护机制由于软件缺陷而失败,这允许部署绕过了安全验证。

 

根据 Windows 论坛帖子,服务中断因身份耦合而加剧,当相同的错误配置边缘网络影响到核心服务时,如 Entra ID(Azure AD),登录失败出现了向外扩散,表现为电子邮件、协作、游戏和管理控制台的停机。中断还导致主要的消费连锁店出现了问题,报告称星巴克和 Dairy Queen 的系统受到了干扰。

 

这一事件立即引发了 SRE 和平台架构师之间关于中心化、全球控制平面固有脆弱性的讨论。Hacker News 上的一位评论者指出

这里的关键是控制平面故障。当你的身份提供商(Entra ID)和你的全球边缘网络(AFD)耦合并依赖于单一的、有缺陷的部署管道进行配置时,这样你就创造了一个架构反模式。爆炸半径不是偶然的,这是一个设计选择。

 

Kentikinc 的互联网分析主管 Doug Madory 在一条推文中回应了这一观点:

即使在超大规模云中,最薄弱的环节不是硬件,而是配置自动化。一次糟糕的推送可以击倒全球边缘网络。

 

微软通过标准 SRE 手册执行了快速的控制平面遏制策略,以稳定系统:

时间(UTC)

行为

17:26

Azure门户从AFD失败中分离出来,以确保管理员可以重新获得程序访问并管理恢复。

17:30

在全球范围内阻止了所有进一步的AFD配置更改,以防止错误状态进一步传播。

17:40

在全球舰队中启动“最后已知正确”配置(回滚)的部署。

18:45

开始手动恢复节点并逐渐将流量重新平衡到健康的存在点(Points-of-Presence,PoP)。

00:05

确认AFD对客户的影响已缓解。

在缓解之后,微软暂时阻止了所有新的客户配置更改到 AFD 上,以确保部署管道安全修复。

 

微软的服务恢复迅速,但这一事件凸显了,在超大规模环境下,小的控制平面错误可能会产生严重的下游后果,需要供应商和客户采取主动的缓解策略,正如 Wayne Workman 在 LinkedIn帖子中评论的那样:

公共云是有史以来最复杂的系统之一。它们会时不时地出现故障……你真正需要问自己的问题是:当中断发生时,事情是否按照你的意图进行?

 

查看英文原文: Azure Front Door Outage: How a Single Control-Plane Defect Exposed Architectural Fragility

2025-11-17 17:483

评论

发布
暂无评论

百度智能云与英特尔携手举办2021 EdgeX中国挑战赛成功落幕

百度大脑

人工智能

AfterShip APP 项目数据驱动的演进

AfterShip

数据库 数据 数据驱动

基于云的技术架构设计实践-第4篇

hackstoic

运维 云原生 签约计划第二季 业务运维

ReactiveNetwork库时如何实现网络状态监听的

Changing Lin

12月日更

WePack —— 助力企业渐进式 DevOps 转型

CODING DevOps

统一管理 WePack 制品管理 研发构建产物 安全管控

老电影和图片变清晰的秘密!分辨率提升400%的AI算法

百度大脑

人工智能

Go语言学习查缺补漏ing Day5

恒生LIGHT云社区

golang 编程语言

Linux一学就会之Centos8系统进程管理 ps管理进程

学神来啦

Linux 运维 linux一学就会 uptime centos8

你知道敏捷团队的迭代目标达成率该是多少吗?

爱吃鱼的小雨

Scrum 敏捷开发 研发管理 内容合集 迭代管理

元宇宙浪潮之下,数字身份至关重要

CECBC

数据大屏rem适配方案

CRMEB

消费医疗门诊的数字化运营

boshi

随笔杂谈

如何避免产品Backlog的这七个常见错误

爱吃鱼的小雨

Scrum 敏捷开发 研发管理 需求管理 内容合集

Web3.0时代的社交网络会有哪些新变化?

CECBC

以容器的方式运行极狐GitLab Runner

极狐GitLab

Docker runner 极狐GitLab

6000字,详解数据仓库明星产品背后的技术奥秘

百度开发者中心

数据库 大数据

Camtasia混音教程

淋雨

Camtasia

MySQL锁的分析实战

卢卡多多

28天写作 MySQL 数据库 锁分析 签约计划第二季 12月日更

五分钟,让你明白MySQL是怎么选择索引《死磕MySQL系列 六》

咔咔

MySQL MySQL高级 索引选择而

国产分布式数据库StarDB核心技术大揭秘二:智能运维管控

京东科技开发者

数据库

中科柏诚持续推进数字网络技术,蓄力元宇宙布局

联营汇聚

底层逻辑:变化背后的不变

石云升

读书笔记 28天写作 12月日更

架构训练营-模块一作业

伊静西蒙

2022年,RPA的5大发展趋势

金小K

区块链 AI RPA 机器人流程自动化 人工智能「

国产分布式数据库StarDB核心技术大揭秘 一:内核分解之数据分片

京东科技开发者

数据库

和12岁小同志搞创客开发:手撕代码,做一款温湿度检测器

不脱发的程序猿

少儿编程 智能硬件 温度传感器 创客开发 Arduino

元宇宙与电信运营商

CECBC

新思科技推动DevSecOps落地,帮助企业走出“安全孤岛”

InfoQ_434670063458

DevSecOps 新思科技 软件安全

开源demo| 智慧协同让企业更便利

anyRTC开发者

音视频 智慧协同 开源demo 远程协助 远程勘查

和12岁小同志搞创客开发:手撕代码,做一款密室自动门

不脱发的程序猿

少儿编程 传感器 智能硬件 创客开发 Arduino

Azure Front Door中断:单控制平面缺陷暴露了架构的脆弱性_架构_InfoQ精选文章