写点什么

Google 和 Facebook 披露全球范围宕机原因

  • 2019-03-15
  • 本文字数:676 字

    阅读完需:约 2 分钟

Google 和 Facebook 披露全球范围宕机原因

昨日,Google、Facebook两巨头在同一天相继发生全球大规模宕机,其中 Facebook 的断电时常更是超过 10 小时之久。对于宕机事件,Google 和 Facebook 后续分别公开说明了原因。

Google

Google 此次中断时常持续约 4 个小时,影响了 Gmail, G Suite, YouTube 等产品。


Google 在中断事故分析报告中表示,此次事故是 SRE 超载系统使得 Google 云存储错误率提高导致。


报告中说明,3 月 11 日,Google SRE 被告警内部 blob 服务使用的元数据的存储资源显著增加;为了减少资源使用,3 月 12 日 SRE 进行了配置更改,使系统的关键部分超载以查找 blob 数据的位置,最终导致级联故障。


此次事故中,重大的影响包括:Google 云存储的长尾延迟较高,平均错误率为 4.8%,所有存储桶位置和存储类都受到影响,依赖于云存储的 Google 云平台服务也受到影响;Stackdriver Monitoring 在检索历史时间序列数据时出现了高达 5% 的错误率,最近的时间序列数据可用,警报没有受到影响。App Engine 的 Blobstore API 出现了较高的延迟和错误率,在获取 blob 数据时达到峰值 21%,App Engine 部署出现了高达 90% 的错误,从 App Engine 提供静态文件也会出现错误率提升。


对于因此事件受到影响的服务与应用客户,谷歌“深表歉意”,并表示正在采取措施以提高可用性并防止此类中断再次发生。

Facebook

昨日,不少猜测说 Facebook 宕机事故是由于路由泄露引起的,而 Facebook 官方披露的原因是服务器配置变更引起的。



昨日,由于服务器配置变更,导致很多用户无法访问我们的应用和服务。现在我们已经解决了这个问题,系统已经恢复。对用户造成的不便我们深感歉意,感谢所有人的耐心。


2019-03-15 17:305903
用户头像
张婵 InfoQ 技术编辑

发布了 87 篇内容, 共 55.5 次阅读, 收获喜欢 218 次。

关注

评论

发布
暂无评论
发现更多内容

数据集成和分析时,应该注意哪些关键因素?

Aloudata

数据分析 数据虚拟化 数据编织

DolphinScheduler自身容错导致的服务器持续崩溃重大问题的排查与解决

白鲸开源

大数据 开源 Apache DolphinScheduler 任务调度

国际认可!天翼云合规领域影响力up!

天翼云开发者社区

云计算 天翼云

阿里巴巴1688 API接口深度解析:如何高效获取商品详情与SKU信息

代码忍者

天润融通助力一鸣食品,AI技术实现全渠道客户服务升级

天润融通

RUM实践-最大内容绘制(LCP)优化

乘云数字DataBuff

用户体验 运维监控 数字体验 RUM

代码之美-代码整洁之道

京东科技开发者

优锘科技携手逐际动力,共创数字孪生与具身智能机器人新未来

ThingJS数字孪生引擎

智能机器人 优锘科技

业务观测:从定义到场景化分析

乘云数字DataBuff

运维 业务监控

中微公司发明专利再获中国专利奖殊荣

新消费日报

@你,请查收:KaiwuDB 2024 年度总结

KaiwuDB

数据库 分布式多模

WebGL开发手术模拟系统

北京木奇移动技术有限公司

软件外包公司 webgl开发 手术模拟

DeepSeek-V3模型对软件测试行业的影响

测吧(北京)科技有限公司

测试

【最佳实践】蚂蚁基于 MaxCompute 动态过滤器优化小表 JOIN 大表节省70%CPU 消耗

阿里云大数据AI技术

大数据 最佳实践 云原生 MaxCompute

CAD图纸分割与布局导出功能怎么用?

在路上

cad cad看图 CAD看图王

第一!天翼云全面领跑智算云服务市场

天翼云开发者社区

云计算 云服务 天翼云

点赞!TeleDB入选2024大数据星河案例!

天翼云开发者社区

云计算 大数据 云服务

行稳、致远 | 技术驱动下的思考感悟

京东科技开发者

制造业为什么需要实施QMS质量管理系统?

万界星空科技

质量管理 QMS 质量管理QMS系统 生产质量 质量追溯

论甲方项目经理与乙方项目经理区别

Geek_XOXO

#项目管理

沙利文公布2024企业级产品应用竞争力排名,百度智能云第一

新消费日报

微店API接口详解:如何高效获取商品详情及简短代码示例

代码忍者

递归算法实践--到仓合单助力京东物流提效增收

京东科技开发者

Claude 3.5:向人类般计算机操作的进步

测吧(北京)科技有限公司

测试

作业帮的一二面,难度不逊于各大厂

王中阳Go

面试

淘宝天猫API接口深度解析:商品详情与关键词搜索商品列表的高效应用

代码忍者

区块链项目外包开发流程

北京木奇移动技术有限公司

区块链技术 软件外包公司 web3开发

从0到1只需“拖一拖”,开发时间按秒算——低代码到底有多牛

JeeLowCode低代码平台

低代码开发 低代码前端 低代码,

Google 和 Facebook 披露全球范围宕机原因_文化 & 方法_张婵_InfoQ精选文章