2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

Azure Front Door 中断:单控制平面缺陷暴露了架构的脆弱性

作者:Steef-Jan Wiggers

  • 2025-11-17
    北京
  • 本文字数:1093 字

    阅读完需:约 4 分钟

大小:548.17K时长:03:07
Azure Front Door中断:单控制平面缺陷暴露了架构的脆弱性

Azure Front Door(ADF)是微软的高级云内容分发网络(Content Delivery Network,CDN),旨在为全球客户提供快速、可靠和安全的访问,以获取客户应用程序的静态和动态网页内容。这项服务最近经历了近 9 小时的全球服务中断。

 

ADF 中断是由一个有缺陷的控制平面配置更改触发的,这导致 Microsoft 365、Xbox Live、Azure 门户和数千个客户网站几乎陷入瘫痪,直到分阶段恢复服务才回归正常。此外,中断的影响范围广泛,这表明了整个微软生态系统及其客户对作为中心化边缘网络的 ADF 的深度依赖。

 

在事后审查(Post Incident Review,PIR)中,公司解释了核心技术的故障:

Azure Front Door(AFD)中一个无意的租户配置更改触发了广泛的服务中断,影响了依赖 AFD 进行全球内容分发的微软服务和客户应用程序。更改引入了无效或不一致的配置状态,导致大量 AFD 节点无法正确加载,并导致下游服务的延迟增加、超时和连接错误。

 

安全机制的关键故障加剧了问题。配置更改被允许传播,因为:

我们旨在校验和阻止所有错误部署的保护机制由于软件缺陷而失败,这允许部署绕过了安全验证。

 

根据 Windows 论坛帖子,服务中断因身份耦合而加剧,当相同的错误配置边缘网络影响到核心服务时,如 Entra ID(Azure AD),登录失败出现了向外扩散,表现为电子邮件、协作、游戏和管理控制台的停机。中断还导致主要的消费连锁店出现了问题,报告称星巴克和 Dairy Queen 的系统受到了干扰。

 

这一事件立即引发了 SRE 和平台架构师之间关于中心化、全球控制平面固有脆弱性的讨论。Hacker News 上的一位评论者指出

这里的关键是控制平面故障。当你的身份提供商(Entra ID)和你的全球边缘网络(AFD)耦合并依赖于单一的、有缺陷的部署管道进行配置时,这样你就创造了一个架构反模式。爆炸半径不是偶然的,这是一个设计选择。

 

Kentikinc 的互联网分析主管 Doug Madory 在一条推文中回应了这一观点:

即使在超大规模云中,最薄弱的环节不是硬件,而是配置自动化。一次糟糕的推送可以击倒全球边缘网络。

 

微软通过标准 SRE 手册执行了快速的控制平面遏制策略,以稳定系统:

时间(UTC)

行为

17:26

Azure门户从AFD失败中分离出来,以确保管理员可以重新获得程序访问并管理恢复。

17:30

在全球范围内阻止了所有进一步的AFD配置更改,以防止错误状态进一步传播。

17:40

在全球舰队中启动“最后已知正确”配置(回滚)的部署。

18:45

开始手动恢复节点并逐渐将流量重新平衡到健康的存在点(Points-of-Presence,PoP)。

00:05

确认AFD对客户的影响已缓解。

在缓解之后,微软暂时阻止了所有新的客户配置更改到 AFD 上,以确保部署管道安全修复。

 

微软的服务恢复迅速,但这一事件凸显了,在超大规模环境下,小的控制平面错误可能会产生严重的下游后果,需要供应商和客户采取主动的缓解策略,正如 Wayne Workman 在 LinkedIn帖子中评论的那样:

公共云是有史以来最复杂的系统之一。它们会时不时地出现故障……你真正需要问自己的问题是:当中断发生时,事情是否按照你的意图进行?

 

查看英文原文: Azure Front Door Outage: How a Single Control-Plane Defect Exposed Architectural Fragility

2025-11-17 17:485216

评论

发布
暂无评论

智能且高效,华为云CDN三大特点助企业云上创新

爱科技的水月

人生的喜悦、不快与成长,都在那一篇篇的文字中得到记录 | 2022 年终总结

宇宙之一粟

年终总结 人生故事 代码之外 12月月更

HarmonyOS多媒体框架介绍

HarmonyOS开发者

HarmonyOS

MatrixDB v4.6.0 发布,查询性能和图形化操作界面全面升级!

YMatrix 超融合数据库

Prometheus 存储引擎 超融合数据库 YMatrix MatrixGate

【web 开发基础】PHP查询数组中的指定元素 (50)

迷彩

数组 数组操作 二维数组 PHP基础 数组查询

浅谈华为云大数据BI对企业数字化转型的助力

秃头也爱科技

“一粒米”的故事:哈工程昇智识米团队基于昇腾AI创新提出水稻适度加工智能化解决方案

极客天地

华为云OBS对象存储服务:这个管家很贴心

爱尚科技

超融合一体流式引擎,打造分布式数据库新纪元

亚信AntDB数据库

AntDB 国产数据库 AntDB数据库

【web 开发基础】PHP中获取数组的元素个数 (51)

迷彩

数组 数组操作 PHP基础 数组查询 统计数组

共创精彩游戏未来,华为云大数据解决方案助力游戏企业成功转型!

秃头也爱科技

【web 开发基础】如何删除数组中的重复元素(52)

迷彩

数组 数组操作 PHP基础 唯一性

华为云大数据BI,助力电商企业打赢“年货节”攻坚战

秃头也爱科技

华为云OBS:让大数据的容器再无容量限制

爱尚科技

华为云对象存储OBS超高性能数据存储能力,推进企业快速上云

爱尚科技

企业数据存储,还得看华为云对象存储服务OBS

爱尚科技

2022-12-29:nsq是go语言写的消息队列。请问k3s部署nsq,yaml如何写?

福大大架构师每日一题

云原生 k8s k3s nsq 福大大

【架构设计】保持简单轻量设计的三个原则——DRY,KISS, YAGNI

JAVA旭阳

Java 架构

华为云大数据BI,如何助力智慧医院数字化升级

秃头也爱科技

华为云微服务引擎0停机迁移Nacos?它是这样做的

科技之光

助力网络碳中和 | 华为发布站点能源十大趋势

极客天地

华为云大数据BI平台,助力电商企业破除数据孤岛,轻松备战双十一

秃头也爱科技

HTTPS基础知识

穿过生命散发芬芳

https 12月月更

缓解等待焦虑,华为云CDN为您提供畅快下载体验

爱科技的水月

亚信科技通信、交通行业数据库项目入选“星河”标杆、优秀案例

亚信AntDB数据库

AntDB 国产数据库 AntDB数据库

华为云CDN引领网站性能全面优化

爱科技的水月

让下载速度更快更稳,华为云CDN多重技术助力网络加速

爱科技的水月

界面原型设计

芯动大师

android GUI设计 mockplus droiddraw

Azure Front Door中断:单控制平面缺陷暴露了架构的脆弱性_架构_InfoQ精选文章