写点什么

谷歌云服务故障原因分析和补救措施

  • 2018-07-27
  • 本文字数:756 字

    阅读完需:约 2 分钟

谷歌公布了近期的一个事件的根本原因分析结果,该事件影响了谷歌的部分云服务,并在大约 32 分钟的时间内将错误率提高了 33%至 87%,后续他们将采取措施改善平台性能和可用性。

该事件影响了很多依赖 Google HTTP(S) 负载均衡器的谷歌服务的客户,包括 Google Kubernetes Engine、Google App Engine、Google Cloud Functions、Stackdriver Web UI、Dialogflow 和 Cloud Support Portal/API。客户在大约 32 分钟的时间内随机收到 502 错误码或连接被重置的错误,这是从谷歌工程师接收到监控系统发出故障率警报的那一刻开始到部署修复程序的时间。

Google HTTP(S) 负载均衡旨在均衡多个后端实例和多个区域的 HTTP 和 HTTPS 流量。它的一个好处是云应用程序可以使用单个全局 IP 地址,极大地简化了 DNS 设置。为了在连接设置期间实现最佳性能,该服务利用第一层谷歌前端(GFE)就近接收用户请求,并将请求转发到第二层 GFE。第二层 GFE 构成全局服务器网络,将请求发送到相应的后端,而不管它们位于哪个区域。

事件的根本原因是,为了提高第二个 GFE 层的安全性和性能而添加的新功能中包含未检测到的错误。该错误是由生产环境中的一个配置变更引发的,它会导致 GFE 随机重启,而在重启过程中,服务容量丢失。

所幸的是,包含该错误的功能尚未投入使用,因此谷歌工程师通过恢复配置变更来部署修复程序,服务在几分钟后恢复其正常行为,在缓存热身后故障率也恢复正常。

为了预防事件再次发生,除了改进 GFE 测试栈并添加更多安全措施以防止未在使用中的功能被错误投入使用外,Google Cloud 团队还计划改善 GFE 池不同分片之间的隔离,以缩小故障范围,并为 GFE 池的配置变更创建仪表盘,让工程师更容易识别有问题的系统变更。

详细信息请阅读谷歌官方事故声明

查看英文原文 Google Cloud Incident Root-cause Analysis and Remediation

2018-07-27 05:362848
用户头像

发布了 731 篇内容, 共 462.7 次阅读, 收获喜欢 2005 次。

关注

评论

发布
暂无评论
发现更多内容

2.5TinkerPop3 升级指南

Geek_古藤模根

图数据库实战

分析一下微信朋友圈的高性能复杂度

Geek_7a789a

企业知识管理难题,现在有了一个好的解决方案

小炮

模块二作业 微信朋友圈高性能分析

Geek__猫猫头

如何抓住架构设计关键 - 作业

阿拉阿拉幽幽

理“ Druid 元数据”之乱

vivo互联网技术

大数据 存储 Druid Apache Druid

直播预告丨 Hello HarmonyOS 进阶课程第五课——原子化服务

HarmonyOS开发者

HarmonyOS

Docker镜像制作实战:设置时区和系统编码

程序员欣宸

Docker 5月月更

架构实战营|模块2

KDA

#架构实战营

【愚公系列】2022年05月 二十三种设计模式(十八)-备忘录模式(Memento Pattern)

愚公搬代码

5月月更

[模块二作业]

wuli洋

要自信的对客户说 “NO”

源字节1号

前端食堂技术周刊第 39 期:TypeScript 4.7、Layouts RFC、Lerna 复活后的大版本 v5.0.0 、TypeScript 错误翻译器

童欧巴

JavaScript typescript 前端

【架构训练营】模块二作业

知北游

作业

Vue框架学习笔记【第day三】

恒山其若陋兮

5月月更

国密在车联网安全认证场景中的应用|车联网系列专题07

EMQ映云科技

车联网 物联网 国密 emqx 5月月更

面试突击52:什么是三范式?它有什么用?

王磊

Java 面试

CopyOnWriteArrayList 源码分析-基础和新增

zarmnosaj

5月月更

架构实战营模块2-微信朋友圈分析

Geek_e8bfe4

网站建设导致网站失败的十个原因

源字节1号

微信小程序 前端开发 后端开发 网站开发

架构实战营-模块二作业

Roy

架构实战营

英特尔加速创新,唤醒网络及边缘原力

科技之家

【愚公系列】2022年05月 二十三种设计模式(十七)-中介者模式(Mediator Pattern)

愚公搬代码

5月月更

在线下划线转驼峰,驼峰转下划线工具

入门小站

工具

在线HTML转ASP工具

入门小站

工具

聊聊 Kafka:Kafka 如何保证可靠性

老周聊架构

kafka 5月月更

继StepN后,新的链游之光

BlockChain先知

架构实战营 7 期「模块二」如何抓住架构设计关键点

Steve_bot

Kafka到底有多高可靠?(RNG NB)

敖丙

kafka Java EE 程序员‘

SAP UI5 自动化测试工具的 qunit-redirect.js

汪子熙

JavaScript 前端开发 SAP Fiori 5月月更

模块二 微信朋友圈高性能架构分析

挖了蘑菇哩斯

作业 架构实战营

谷歌云服务故障原因分析和补救措施_语言 & 开发_Sergio De Simone_InfoQ精选文章