发布在即!企业 AIGC 应用程度测评,3 步定制专属评估报告。抢首批测评权益>>> 了解详情
写点什么

Azure 全球中断三小时:微软回复称 DNS 更新故障

  • 2019-05-05
  • 本文字数:1386 字

    阅读完需:约 5 分钟

Azure全球中断三小时:微软回复称DNS更新故障

5 月 2 日 19:29 到 22:35 UTC 之间,微软 Azure 发生了三小时左右中断,导致 Azure、Microsoft 365、Dynamics 和 DevOps 等多项服务出现连接问题。


根据最新消息,本次事故发生在 DNS 迁移期间,具体时间为 5 月 2 日 19:29 到 22:35 UTC 之间,大多数服务在 UTC 时间 21:40 恢复,其余服务在 22:35 UTC 恢复。根据微软方面的回复,造成该事故的根本原因如下:


作为计划维护活动的一部分,微软工程师执行了配置更改,以更新用于访问多个微软服务(包括 Azure 存储和 Azure SQL 数据库)的 DNS 区域名称服务器(name server)之一。更改过程失败导致这些区域的四个名称服务器(name server)之一指向没有数据的 DNS 服务器并返回否定响应。结果是,这些服务使用的域(例如database.windows.net)中大约 25%的查询产生了错误结果,并且这些服务的可访问性降低。因此,依赖于这些核心服务的多个其他 Azure 和 Microsoft 服务受到不同程度的影响。


该事件对 Azure 计算、存储、App Service、Azure AD 身份服务和 SQL 数据库产生了连锁反应。根据外媒 The Register 此前的报道,本次受影响的服务包括 SharePoint Online,OneDrive for Business,Microsoft Teams,Stream,Power BI,Planner,Forms,PowerApps,Dynamics 365,Intune 和 Office Licensing。



微软方面表示,此事件源于两个独立的错误和一些巧合,这两个错误本身其实不会产生影响:


1、微软工程师执行了名称服务器(name server)委派更改以更新多个区域的名称服务器,包括 Azure 存储和 Azure SQL 数据库。其中,每个区域有四个名称服务器用于冗余,并且在此维护期间仅对一个名称服务器进行更新。用于进行更改的自动化参数配置错误导致名称服务器委派错误。


2、作为先前自动化工作的一部分,空区域文件存在于非指定委托的预期目标服务器上。这本身并不是问题,因为名称服务器没有为相关区域提供服务。


但是,由于此实例中更改自动化出现配置错误,被委派的目标名称服务器是空副本。因此,此名称服务器对区域中所有查询给出了否定(nxdomain)答案。由于该区域的四个名称服务器记录中只有一个是不正确的,因此受影响区域大约四分之一的查询收到不正确的否定响应。



为解决此问题,微软工程师通过将名称服务器值还原为先前的设置来更正委派问题。工程师验证所有响应都是正确的,DNS 解析器开始在 5 分钟内返回正确结果。某些访问错误值并缓存结果的应用程序和服务可能需要更长的恢复时间,直到错误的缓存信息到期为止。在事件发生期间,微软多次更新页面,并逐渐恢复服务。该公司向客户保证,DNS 记录在活动期间没有受到影响,并且 Azure DNS 本身仍然存在。


对此,微软方面建议用户可以执行以下操作(包括但不限于):


  • 执行名称服务器更新代码中的附加检查,以防止意外更改(正在进行)。

  • 预执行建模,以准确预测变更结果,并在执行[正在进行]之前检测潜在问题。

  • 改进每个区域,每个名称服务器监视器,立即检测导致一个名称服务器偏离其他名称服务器(正在进行)的更改。

  • 改进 DNS 命名空间设计,以更好地允许分阶段推出更改,同时降低增量影响(进行中)。


根据了解,这不是微软 Azure 第一次发生服务中断。1月份,全球Azure中断影响了 Office 365,Azure 和 Dynamics 365 服务,原因也与 DNS 有关,微软方面表示是 Level 3 托管 DNS 服务出现问题。去年底,Azure AD 多因素身份验证中断使全球的 Office 365 用户无法登录其帐户。


2019-05-05 19:505361
用户头像
赵钰莹 InfoQ 主编

发布了 870 篇内容, 共 598.8 次阅读, 收获喜欢 2669 次。

关注

评论 1 条评论

发布
用户头像
宕机年年有啊
2019-05-05 19:52
回复
没有更多了
发现更多内容

强大专业视频剪辑:iMovie 激活中文版最新

mac大玩家j

Mac软件 视频编辑 视频处理工具 编辑视频

“全球金牌课程”10月21-22日 · CSM认证在线周末班【提前报名特惠】CST导师亲授

ShineScrum捷行

国内首家!阿里云 Elasticsearch 8.9 版本释放 AI 搜索新动能

阿里云大数据AI技术

阿里云 开源

异常检测:探索数据深层次背后的奥秘《中篇》

汀丶人工智能

数据挖掘 机器学习 异常检测

直播软件开发源码——直播系统源码

西安链酷科技

直播软件开发

im即时通讯 加密通讯设计聊天区块链系统搭建开发

西安链酷科技

直播软件开发

学会用AI:释放创意,解放双手,工作再多也不慌

SoFlu软件机器人

AI无处不在,酷睿Ultra处理器与剪映深度优化助力AI抠像功能

E科讯

Whisk for Mac(网页编辑器) v2.6.2永久激活版

mac

苹果mac Windows软件 Whisk 网页编辑器

OP链丨ARB链代币合约质押模式系统开发

l8l259l3365

海外直播、聊天交友APP的开发

西安链酷科技

直播软件开发 直播平台开发

海外版视频直播平台开发搭建

西安链酷科技

直播软件开发

华为发布全面自研密码套件及全场景智慧前端框架开源项目

科技热闻

苹果电脑版文件搜索推荐 HoudahSpot激活中文最新

胖墩儿不胖y

Mac软件 文件搜索 搜索工具 mac文件搜索软件 文件搜索软件

软件测试/测试开发丨利用人工智能ChatGPT完善个人简历

测试人

人工智能 程序员 软件测试 简历 ChatGPT

龙蜥白皮书精选:机密计算平台技术

OpenAnolis小助手

开源 操作系统 白皮书 龙蜥社区 机密计算

直播系统开发|直播APP源码开发搭建的开发

西安链酷科技

语音直播平台开发 直播APP开发

Typora for Mac:简单易用的Markdown文本编辑器

晴雯哥

QSDK-QCA9890, QCA9892 and MTK-MT7915- Different wireless chips - different characteristics and uses

wifi6-yiyi

QSDK MTK

“中国心”十佳发动机专家评委团走进奇瑞 开启混动性能“芯标准”

科技热闻

浅谈终端安全接入

权说安全

HarmonyOS如何使用异步并发能力进行开发

HarmonyOS开发者

HarmonyOS

修复 Spring Boot Actuator 未授权访问问题的指南

Apifox

Java Spring Boot 后端 Spring Boot Actuator 授权访问

深入浅出线程池 | 京东云技术团队

京东科技开发者

Java 线程 线程池 企业号9月PK榜

OpenHarmony应用开发—ArkUI组件集合

OpenHarmony开发者

OpenHarmony

爱采购点亮中国工博会,数智赋能引领工业未来!

科技热闻

Azure全球中断三小时:微软回复称DNS更新故障_服务革新_赵钰莹_InfoQ精选文章