写点什么

谷歌云服务故障原因分析和补救措施

  • 2018-07-27
  • 本文字数:756 字

    阅读完需:约 2 分钟

谷歌公布了近期的一个事件的根本原因分析结果,该事件影响了谷歌的部分云服务,并在大约 32 分钟的时间内将错误率提高了 33%至 87%,后续他们将采取措施改善平台性能和可用性。

该事件影响了很多依赖 Google HTTP(S) 负载均衡器的谷歌服务的客户,包括 Google Kubernetes Engine、Google App Engine、Google Cloud Functions、Stackdriver Web UI、Dialogflow 和 Cloud Support Portal/API。客户在大约 32 分钟的时间内随机收到 502 错误码或连接被重置的错误,这是从谷歌工程师接收到监控系统发出故障率警报的那一刻开始到部署修复程序的时间。

Google HTTP(S) 负载均衡旨在均衡多个后端实例和多个区域的 HTTP 和 HTTPS 流量。它的一个好处是云应用程序可以使用单个全局 IP 地址,极大地简化了 DNS 设置。为了在连接设置期间实现最佳性能,该服务利用第一层谷歌前端(GFE)就近接收用户请求,并将请求转发到第二层 GFE。第二层 GFE 构成全局服务器网络,将请求发送到相应的后端,而不管它们位于哪个区域。

事件的根本原因是,为了提高第二个 GFE 层的安全性和性能而添加的新功能中包含未检测到的错误。该错误是由生产环境中的一个配置变更引发的,它会导致 GFE 随机重启,而在重启过程中,服务容量丢失。

所幸的是,包含该错误的功能尚未投入使用,因此谷歌工程师通过恢复配置变更来部署修复程序,服务在几分钟后恢复其正常行为,在缓存热身后故障率也恢复正常。

为了预防事件再次发生,除了改进 GFE 测试栈并添加更多安全措施以防止未在使用中的功能被错误投入使用外,Google Cloud 团队还计划改善 GFE 池不同分片之间的隔离,以缩小故障范围,并为 GFE 池的配置变更创建仪表盘,让工程师更容易识别有问题的系统变更。

详细信息请阅读谷歌官方事故声明

查看英文原文 Google Cloud Incident Root-cause Analysis and Remediation

2018-07-27 05:363079
用户头像

发布了 731 篇内容, 共 473.5 次阅读, 收获喜欢 2008 次。

关注

评论

发布
暂无评论
发现更多内容

鸿蒙开发实战:Wear Engine Kit实现智能手表文档预览

huafushutong

HarmonyOS开发实战:Camera Kit实现文档扫描增强

huafushutong

harmony-utils之DateUtil,日期工具类

桃花镇童长老

HarmonyOS ArkTS

HarmonyOS开发实战:Network Kit实现文档云同步与协作

huafushutong

HarmonyOS开发实战:Universal Keystore Kit实现文档加密安全存储

huafushutong

HarmonyOS开发实战:User Authentication Kit实现文档安全访问控制

huafushutong

HarmonyOS开发实战:Service Collaboration Kit实现文档服务智能联动

huafushutong

HarmonyOS开发实战:Telephony Kit实现文档紧急联系人联动

huafushutong

【HarmonyOS】模仿个人中心头像图片,调用系统相机拍照,从系统相册选择图片和圆形裁剪显示 (二)

GeorgeGcs

HarmonyOS开发实战:DRM Kit实现企业文档版权保护

huafushutong

HarmonyOS开发实战:Media Kit实现文档多媒体融合

huafushutong

鸿蒙开发实战:Online Authentication Kit实现文档服务安全认证

huafushutong

harmony-utils之DeviceUtil,设备相关工具类

桃花镇童长老

HarmonyOS ArkTS

鸿蒙开发笔记:Status Bar Extension Kit实现文档编辑器状态栏定制

huafushutong

harmony-utils之EmitterUtil,Emitter工具类

桃花镇童长老

HarmonyOS ArkTS

HarmonyOS开发实战:Performance Analysis Kit实现文档编辑器性能调优

huafushutong

鸿蒙开发实战:NearLink Kit实现文档近场极速互传

huafushutong

harmony-utils之DialogUtil,弹窗工具类

桃花镇童长老

HarmonyOS ArkTS

鸿蒙开发实战:Pen Kit实现手写文档批注功能

huafushutong

鸿蒙开发笔记:Test Kit实现文档编辑器自动化测试

huafushutong

鸿蒙开发实战:Sensor Service Kit实现智能文档阅读模式

huafushutong

HarmonyOS开发实战:Audio Kit实现文档语音批注功能

huafushutong

HarmonyOS开发实战:AVCodec Kit实现文档视频转码嵌入

huafushutong

鸿蒙开发实战:Image Kit实现文档图片智能处理

huafushutong

【HarmonyOS】头像图片,调用系统相机拍照,从系统相册选择图片和圆形裁剪显示 (一)

GeorgeGcs

HarmonyOS开发实战:AVSession Kit实现文档多媒体协同控制

huafushutong

【HarmonyOS】应用推送使用个推SDK如何实现?

GeorgeGcs

鸿蒙开发实战:Multimodal Awareness Kit实现智能文档交互体验

huafushutong

HarmonyOS开发实战:Network Boost Kit优化文档云同步体验

huafushutong

harmony-utils之DisplayUtil,屏幕相关工具类

桃花镇童长老

HarmonyOS ArkTS

HarmonyOS开发实战:Remote Communication Kit实现远程文档协作

huafushutong

谷歌云服务故障原因分析和补救措施_语言 & 开发_Sergio De Simone_InfoQ精选文章