写点什么

谷歌云服务故障原因分析和补救措施

  • 2018-07-27
  • 本文字数:756 字

    阅读完需:约 2 分钟

谷歌公布了近期的一个事件的根本原因分析结果,该事件影响了谷歌的部分云服务,并在大约 32 分钟的时间内将错误率提高了 33%至 87%,后续他们将采取措施改善平台性能和可用性。

该事件影响了很多依赖 Google HTTP(S) 负载均衡器的谷歌服务的客户,包括 Google Kubernetes Engine、Google App Engine、Google Cloud Functions、Stackdriver Web UI、Dialogflow 和 Cloud Support Portal/API。客户在大约 32 分钟的时间内随机收到 502 错误码或连接被重置的错误,这是从谷歌工程师接收到监控系统发出故障率警报的那一刻开始到部署修复程序的时间。

Google HTTP(S) 负载均衡旨在均衡多个后端实例和多个区域的 HTTP 和 HTTPS 流量。它的一个好处是云应用程序可以使用单个全局 IP 地址,极大地简化了 DNS 设置。为了在连接设置期间实现最佳性能,该服务利用第一层谷歌前端(GFE)就近接收用户请求,并将请求转发到第二层 GFE。第二层 GFE 构成全局服务器网络,将请求发送到相应的后端,而不管它们位于哪个区域。

事件的根本原因是,为了提高第二个 GFE 层的安全性和性能而添加的新功能中包含未检测到的错误。该错误是由生产环境中的一个配置变更引发的,它会导致 GFE 随机重启,而在重启过程中,服务容量丢失。

所幸的是,包含该错误的功能尚未投入使用,因此谷歌工程师通过恢复配置变更来部署修复程序,服务在几分钟后恢复其正常行为,在缓存热身后故障率也恢复正常。

为了预防事件再次发生,除了改进 GFE 测试栈并添加更多安全措施以防止未在使用中的功能被错误投入使用外,Google Cloud 团队还计划改善 GFE 池不同分片之间的隔离,以缩小故障范围,并为 GFE 池的配置变更创建仪表盘,让工程师更容易识别有问题的系统变更。

详细信息请阅读谷歌官方事故声明

查看英文原文 Google Cloud Incident Root-cause Analysis and Remediation

2018-07-27 05:362953
用户头像

发布了 731 篇内容, 共 466.9 次阅读, 收获喜欢 2006 次。

关注

评论

发布
暂无评论
发现更多内容

技术为王丨华为云打破中小企业开发小程序低效怪圈

轶天下事

近年北美地区 IT 岗求职之怪现状

HoneyMoose

Java List 中存不同的数据类型

HoneyMoose

秒验:可以自定义UI的一键登录服务

MobTech袤博科技

大数据 智能推送

Java基础面试题【六】线程(2)

派大星

Java 面试题

TX云服务器续费肉痛?试试华为云耀云服务器吧!

轶天下事

基于Scrum框架产研团队运作20问

laofo

DevOps 敏捷 研发效能 敏捷精髓 持续交付

一种长链换短链的实现思路

golf

golang 后端 短链

2023年被问了100遍的1000道java面试题,终于总结成了485页PDF

程序员万金游

编程 Java 面试 程序员、 java Java 面试题

华为云828营销季正式开启,打造中小企业“上云嘉年华”

平平无奇爱好科技

解读非托管流动性协议Hover: 差异化、层次化的全新借贷体系

股市老人

Java @Override 注解

HoneyMoose

Java 21新特性-虚拟线程

越长大越悲伤

Java

时间序列分析在股票量化策略中的探讨

Geek_d872c2

时间序列 量化投资

JD云云主机太捞?这款轻量云服务器存在感满满

轶天下事

C++移动和获取文件读写指针

芯动大师

Spring扩展-自定义属性编辑器

轻量云服务器才是跨境电商最终归宿

平平无奇爱好科技

错误排查

极狐GitLab专家团队支招解决 CVE-2023-4998 漏洞问题

极狐GitLab

DevOps gitlab 安全 DevSecOps 漏洞

视频回放编辑软件Mitti最新免激活版

胖墩儿不胖y

Mac软件 音频编辑 音频处理工具

跨境电商难做?轻量云服务器助你快速“出海”

YG科技

谷歌云服务故障原因分析和补救措施_语言 & 开发_Sergio De Simone_InfoQ精选文章