写点什么

谷歌云服务故障原因分析和补救措施

  • 2018-07-27
  • 本文字数:756 字

    阅读完需:约 2 分钟

谷歌公布了近期的一个事件的根本原因分析结果,该事件影响了谷歌的部分云服务,并在大约 32 分钟的时间内将错误率提高了 33%至 87%,后续他们将采取措施改善平台性能和可用性。

该事件影响了很多依赖 Google HTTP(S) 负载均衡器的谷歌服务的客户,包括 Google Kubernetes Engine、Google App Engine、Google Cloud Functions、Stackdriver Web UI、Dialogflow 和 Cloud Support Portal/API。客户在大约 32 分钟的时间内随机收到 502 错误码或连接被重置的错误,这是从谷歌工程师接收到监控系统发出故障率警报的那一刻开始到部署修复程序的时间。

Google HTTP(S) 负载均衡旨在均衡多个后端实例和多个区域的 HTTP 和 HTTPS 流量。它的一个好处是云应用程序可以使用单个全局 IP 地址,极大地简化了 DNS 设置。为了在连接设置期间实现最佳性能,该服务利用第一层谷歌前端(GFE)就近接收用户请求,并将请求转发到第二层 GFE。第二层 GFE 构成全局服务器网络,将请求发送到相应的后端,而不管它们位于哪个区域。

事件的根本原因是,为了提高第二个 GFE 层的安全性和性能而添加的新功能中包含未检测到的错误。该错误是由生产环境中的一个配置变更引发的,它会导致 GFE 随机重启,而在重启过程中,服务容量丢失。

所幸的是,包含该错误的功能尚未投入使用,因此谷歌工程师通过恢复配置变更来部署修复程序,服务在几分钟后恢复其正常行为,在缓存热身后故障率也恢复正常。

为了预防事件再次发生,除了改进 GFE 测试栈并添加更多安全措施以防止未在使用中的功能被错误投入使用外,Google Cloud 团队还计划改善 GFE 池不同分片之间的隔离,以缩小故障范围,并为 GFE 池的配置变更创建仪表盘,让工程师更容易识别有问题的系统变更。

详细信息请阅读谷歌官方事故声明

查看英文原文 Google Cloud Incident Root-cause Analysis and Remediation

2018-07-27 05:362979
用户头像

发布了 731 篇内容, 共 467.9 次阅读, 收获喜欢 2006 次。

关注

评论

发布
暂无评论
发现更多内容

Easysearch 集群通过 API 进行用户密码重置

极限实验室

Easy search

Textual for Mac(IRC客户端)v7.2.4免激活版

小玖_苹果Mac软件

鼠标平滑增强工具Smooze Pro for Mac激活版

小玖_苹果Mac软件

OmniOutliner Pro 5 for Mac激活版 内容大纲

小玖_苹果Mac软件

音乐NFT系统的测试

北京木奇移动技术有限公司

软件外包公司 音乐NFT 体育NFT

AI编程:如何编写提示词

卷福同学

AIGC AI编程 cursor

PAI Model Gallery 支持云上一键部署 DeepSeek-V3、DeepSeek-R1 系列模型

阿里云大数据AI技术

人工智能 阿里云 模型部署 PAI DeepSeek

基于 HyperLogLog 统计直播访问人数-Redis

储诚益

Java 面试 redis 底层原理 场景题

Easysearch 集群重置 admin 用户密码

极限实验室

easysearch

Qt开发macOS软件系统

北京木奇移动技术有限公司

跨平台开发 软件外包公司 QT开发

爆火的Deepseek初体验

能源恒观

人工智能 AI 大模型

QGIS软件系统的测试

北京木奇移动技术有限公司

软件外包公司 QT开发 QT软件开发

iReal Pro for Mac(优秀的音乐练习参考工具)v2025.1激活版

小玖_苹果Mac软件

TechTool Pro for mac(硬件监测和系统维护工具)v20.1.4 中文激活版

小玖_苹果Mac软件

音乐 NFT 系统的性能优化

北京木奇移动技术有限公司

软件外包公司 音乐NFT 体育NFT

QGIS系统的开发难点

北京木奇移动技术有限公司

WebGIS QGIS 软件外包公司

Folder Tidy for mac(Mac桌面文件整理工具)v2.9.5 免激活版

小玖_苹果Mac软件

谷歌云服务故障原因分析和补救措施_语言 & 开发_Sergio De Simone_InfoQ精选文章