阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

Google 和 Facebook 披露全球范围宕机原因

  • 2019-03-15
  • 本文字数:676 字

    阅读完需:约 2 分钟

Google 和 Facebook 披露全球范围宕机原因

昨日,Google、Facebook两巨头在同一天相继发生全球大规模宕机,其中 Facebook 的断电时常更是超过 10 小时之久。对于宕机事件,Google 和 Facebook 后续分别公开说明了原因。

Google

Google 此次中断时常持续约 4 个小时,影响了 Gmail, G Suite, YouTube 等产品。


Google 在中断事故分析报告中表示,此次事故是 SRE 超载系统使得 Google 云存储错误率提高导致。


报告中说明,3 月 11 日,Google SRE 被告警内部 blob 服务使用的元数据的存储资源显著增加;为了减少资源使用,3 月 12 日 SRE 进行了配置更改,使系统的关键部分超载以查找 blob 数据的位置,最终导致级联故障。


此次事故中,重大的影响包括:Google 云存储的长尾延迟较高,平均错误率为 4.8%,所有存储桶位置和存储类都受到影响,依赖于云存储的 Google 云平台服务也受到影响;Stackdriver Monitoring 在检索历史时间序列数据时出现了高达 5% 的错误率,最近的时间序列数据可用,警报没有受到影响。App Engine 的 Blobstore API 出现了较高的延迟和错误率,在获取 blob 数据时达到峰值 21%,App Engine 部署出现了高达 90% 的错误,从 App Engine 提供静态文件也会出现错误率提升。


对于因此事件受到影响的服务与应用客户,谷歌“深表歉意”,并表示正在采取措施以提高可用性并防止此类中断再次发生。

Facebook

昨日,不少猜测说 Facebook 宕机事故是由于路由泄露引起的,而 Facebook 官方披露的原因是服务器配置变更引起的。



昨日,由于服务器配置变更,导致很多用户无法访问我们的应用和服务。现在我们已经解决了这个问题,系统已经恢复。对用户造成的不便我们深感歉意,感谢所有人的耐心。


2019-03-15 17:305706
用户头像
张婵 InfoQ 技术编辑

发布了 87 篇内容, 共 51.5 次阅读, 收获喜欢 218 次。

关注

评论

发布
暂无评论
发现更多内容

小心你的个人信息——GitHub 热点速览 v.21.09

HelloGitHub

GitHub 开源 终端工具 社交

SARIF:DevSecOps工具与平台交互的桥梁

华为云开发者联盟

安全 DevSecOps SARIF 自动化平台 OASIS

入选SIGMOD2021的时间序列多周期检测通用框架RobustPeriod如何支撑阿里业务场景?

阿里云大数据AI技术

人工智能 数据库 大数据

第五次作业

Geek_79e983

阿里巴巴Druid,轻松实现MySQL数据库加密!

王磊

Java springboot Druid

产品经理训练营作业 04

KingSwim

Mac 下配置 Intellij IDEA + Tomcat 出现权限问题的解决办法

少平

tomcat

工作日志3-1

技术骨干

产品训练营 - 第五周 - 作业

邹小胖

产品经理训练营

vivo 官网资源包适配多场景的应用

vivo互联网技术

低代码 无服务器云函数

第五周 继续文档的一些细节

小匚

产品经理 产品经理新人如何落地 产品经理训练营

“蚂蚁牙黑”太火,想玩就用ModelArts做一个

华为云开发者联盟

AI 动画 modelarts 图像

Linux入门篇 —— 手把手教你 Linux 三种网络配置方法

若尘

Linux 网络

一场由fork引发的超时,让我们重新探讨了Redis的抖动问题

华为云开发者联盟

数据库 redis 华为云 GaussDB fork

关于搜商的一点记录「Day 9」

道伟

28天写作

翻译:《实用的Python编程》03_02_More_functions

codists

Python

数据产品经理实战-用户运营体系搭建

第519区

算法 数据产品 数据运营

字节跳动力推的OKR,是未来企业发展的标配吗?

ToB行业头条

如果重来,结果就会好吗?「Day 10」

道伟

28天写作

肝了很久,冰河整理出这份4万字的SpringCloud与SpringCloudAlibaba学习笔记!!

冰河

微服务 高可用 高并发 冰河技术 SpringCloud Alibaba

左手画条龙右手画彩虹——认知负荷理论

Justin

心理学 28天写作 游戏设计

Java 中各种DTO,POJO 等的概念

少平

关于 Synchronized 的一个点,网上99%的文章都错了

yes

Java JVM

神经网络攻防:01.模型到底是什么?

P小二

神经网络 网络安全 AIPwn AI安全 P小二

一个15年的架构师谈“如何成为一名优秀的解决方案架构师”

华为云开发者联盟

架构 软件 架构师 华为云

dubbo 源码 v2.7 分析:核心机制(一)

程序员架构进阶

架构 源码分析 dubbo 七日更 28天写作

一篇读懂https的本质、证书验证过程以及数据加密

梁龙先森

大前端 https

FindBugs:Java 静态代码检查

少平

代码审查

云计算带来的变革将如何在2021年加速创新

浪潮云

云计算

大厂动态规划面试汇总,教你如何修炼内功

盼盼编程

算法 动态规划 数据结构和算法 笔试

Elasticsearch Search Options 搜索参数

escray

elastic 七日更 28天写作 死磕Elasticsearch 60天通过Elastic认证考试

Google 和 Facebook 披露全球范围宕机原因_文化 & 方法_张婵_InfoQ精选文章