在 2025 收官前,看清 Data + AI 的真实走向,点击查看 BUILD 大会精华版 了解详情
写点什么

Google 和 Facebook 披露全球范围宕机原因

  • 2019-03-15
  • 本文字数:676 字

    阅读完需:约 2 分钟

Google 和 Facebook 披露全球范围宕机原因

昨日,Google、Facebook两巨头在同一天相继发生全球大规模宕机,其中 Facebook 的断电时常更是超过 10 小时之久。对于宕机事件,Google 和 Facebook 后续分别公开说明了原因。

Google

Google 此次中断时常持续约 4 个小时,影响了 Gmail, G Suite, YouTube 等产品。


Google 在中断事故分析报告中表示,此次事故是 SRE 超载系统使得 Google 云存储错误率提高导致。


报告中说明,3 月 11 日,Google SRE 被告警内部 blob 服务使用的元数据的存储资源显著增加;为了减少资源使用,3 月 12 日 SRE 进行了配置更改,使系统的关键部分超载以查找 blob 数据的位置,最终导致级联故障。


此次事故中,重大的影响包括:Google 云存储的长尾延迟较高,平均错误率为 4.8%,所有存储桶位置和存储类都受到影响,依赖于云存储的 Google 云平台服务也受到影响;Stackdriver Monitoring 在检索历史时间序列数据时出现了高达 5% 的错误率,最近的时间序列数据可用,警报没有受到影响。App Engine 的 Blobstore API 出现了较高的延迟和错误率,在获取 blob 数据时达到峰值 21%,App Engine 部署出现了高达 90% 的错误,从 App Engine 提供静态文件也会出现错误率提升。


对于因此事件受到影响的服务与应用客户,谷歌“深表歉意”,并表示正在采取措施以提高可用性并防止此类中断再次发生。

Facebook

昨日,不少猜测说 Facebook 宕机事故是由于路由泄露引起的,而 Facebook 官方披露的原因是服务器配置变更引起的。



昨日,由于服务器配置变更,导致很多用户无法访问我们的应用和服务。现在我们已经解决了这个问题,系统已经恢复。对用户造成的不便我们深感歉意,感谢所有人的耐心。


2019-03-15 17:305970
用户头像
张婵 InfoQ 技术编辑

发布了 87 篇内容, 共 56.7 次阅读, 收获喜欢 218 次。

关注

评论

发布
暂无评论
发现更多内容

LeetCode题解:105. 从前序与中序遍历序列构造二叉树,递归+哈希表,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

Android面试(二)

我就感觉到快

技术分享 | 漫谈音视频中的拥塞控制

拍乐云Pano

百度首届智能小程序高校大赛圆满结束:关注学生心理健康小程序获全国一等奖

DT极客

程序员生产环境-软件篇

ITCamel

程序员 效率工具 工作效率

客户服务高触达,零代码从短信/邮件跳转小程序客服

环信

企业短信服务质量与用户体验如何监控?短信监测技术震撼来袭

博睿数据

短信 数据监测

看懂2020年智能浪潮,我们从百度和谷歌的AI足迹出发

脑极体

观看辽篮比赛,思考团队管理——关于团队的灵魂拷问,你中了几个?

伯薇

团队管理 团队建设 团队 赋能 激励

【盘点2020】机房网络性能哪家强?年度冠军揭晓

博睿数据

机房 评测

【我给面试官画饼】软件测试理论基础、质量保证常见面试题——会被面试官赶出来吗?

程序员阿沐

面试 软件测试 测试工程师 质量保证

直播预告丨NLP领域的2020年大事记及2021展望

京东科技开发者

机器学习 AI nlp

从烟酒茶说系统化学习

张老蔫

28天写作

你kin你擦!阿里终于肯把内部高并发编程高阶笔记开源出来了

Java架构之路

Java 程序员 架构 面试 编程语言

实现数字经济和实体经济深度融合

CECBC

区块链

跨界融合,区块链推动实体经济提档升级

CECBC

人工智能 云计算 大数据

边缘安全 | 正确使用CDN 让你更好规避安全风险

阿里云Edge Plus

安全 CDN

基于Prometheus+Grafana打造企业级Flink监控系统

王知无

大数据 flink 监控

HDFS中的常用压缩算法及区别

王知无

大数据 hdfs

数据倾斜?Spark 3.0 AQE专治各种不服

王知无

大数据 spark

关于JDK15的简单理解

Java架构师迁哥

数字货币应用从C端走向B端 实践中这些难题仍需关注

CECBC

数字货币

大数据知识专栏 -MapReduce 自定义排序技术

小马哥

大数据 hadoop mapreduce 七日更

基础不牢,地动山摇;自学进大厂的第18天!

Java架构师迁哥

阿里开源SpringSecurity:用户+案例+认证+框架

996小迁

Java 程序员 架构 面试 springsecurity

AES128解密只能解一半的问题

李日盛

AES 问题定位

永续合约APP系统软件开发

系统开发

京东架构师分享的 Redis学习笔记手抄版;

Java架构师迁哥

胜天半子!阿里内部力荐SpringBoot全栈笔记全网首发,源码实战齐飞

Java架构之路

Java 程序员 架构 面试 编程语言

​Kubernetes资源清单篇:如何创建资源?​

xcbeyond

Kubernetes 28天写作 Kubernetes从入门到精通

Soul网关源码阅读(八)路由匹配初探

Java 源码阅读 网关

Google 和 Facebook 披露全球范围宕机原因_文化 & 方法_张婵_InfoQ精选文章