2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

谷歌云服务故障原因分析和补救措施

  • 2018-07-27
  • 本文字数:756 字

    阅读完需:约 2 分钟

谷歌公布了近期的一个事件的根本原因分析结果,该事件影响了谷歌的部分云服务,并在大约 32 分钟的时间内将错误率提高了 33%至 87%,后续他们将采取措施改善平台性能和可用性。

该事件影响了很多依赖 Google HTTP(S) 负载均衡器的谷歌服务的客户,包括 Google Kubernetes Engine、Google App Engine、Google Cloud Functions、Stackdriver Web UI、Dialogflow 和 Cloud Support Portal/API。客户在大约 32 分钟的时间内随机收到 502 错误码或连接被重置的错误,这是从谷歌工程师接收到监控系统发出故障率警报的那一刻开始到部署修复程序的时间。

Google HTTP(S) 负载均衡旨在均衡多个后端实例和多个区域的 HTTP 和 HTTPS 流量。它的一个好处是云应用程序可以使用单个全局 IP 地址,极大地简化了 DNS 设置。为了在连接设置期间实现最佳性能,该服务利用第一层谷歌前端(GFE)就近接收用户请求,并将请求转发到第二层 GFE。第二层 GFE 构成全局服务器网络,将请求发送到相应的后端,而不管它们位于哪个区域。

事件的根本原因是,为了提高第二个 GFE 层的安全性和性能而添加的新功能中包含未检测到的错误。该错误是由生产环境中的一个配置变更引发的,它会导致 GFE 随机重启,而在重启过程中,服务容量丢失。

所幸的是,包含该错误的功能尚未投入使用,因此谷歌工程师通过恢复配置变更来部署修复程序,服务在几分钟后恢复其正常行为,在缓存热身后故障率也恢复正常。

为了预防事件再次发生,除了改进 GFE 测试栈并添加更多安全措施以防止未在使用中的功能被错误投入使用外,Google Cloud 团队还计划改善 GFE 池不同分片之间的隔离,以缩小故障范围,并为 GFE 池的配置变更创建仪表盘,让工程师更容易识别有问题的系统变更。

详细信息请阅读谷歌官方事故声明

查看英文原文 Google Cloud Incident Root-cause Analysis and Remediation

2018-07-27 05:363271
用户头像

发布了 731 篇内容, 共 484.0 次阅读, 收获喜欢 2008 次。

关注

评论

发布
暂无评论
发现更多内容

架构师训练营第九周

Melo

策略模式解析

南方有乔木兮

智能的财务管理系统,来自某科技公司CEO亲手搭建

明道云

JVM系列之:通过一个例子分析JIT的汇编代码

程序那些事

Java JVM JIT 汇编

实现扫码登陆的最简单方案与原理

Java小咖秀

Java 解决方案 经验总结

新技术(区块链)--让游戏行业走的更远

CECBC

区块链技术 防篡改不可逆

刚坐下,一个面试官居然问了我 30个Spring Boot问题!

只喝纯牛奶

Spring Boot+Redis+拦截器+自定义Annotation实现接口自动幂等

我是苞谷

编程日课•理解学院

顿晓

学习 编程日课 理解学院

面经手册 · 第1篇《认知自己的技术栈盲区》

小傅哥

Java 面试 小傅哥 技术栈

海华大赛第一名团队聊比赛经验和心得:AI在垃圾分类中的应用

华为云开发者联盟

AI 算法 数据分析 垃圾回收机制 华为云

创业公司技术体系建设-CI/CD

星际行者

CI/CD

给技术同学的建议:人人都该懂的埋点知识

易观大数据

埋点 智能运营

LeetCode002-两数相加-medium

书旅

算法 数据结构与算法

Twitter高性能分布式日志系统架构解析

俊俊哥

pulsar bookKeeper 分布式文件存储

(政务上链)新数据孤岛、安全风险等问题待解

CECBC

工作效率 公开透明 新技术

秒懂云通信:如何用阿里云语音通知服务(小白指南)

阿里云Edge Plus

语音

架构师技术领导力成长之路

IT民工大叔

领导力 架构师

腾讯安全领御区块链与张裕集团达成战略合作,打造高端葡萄酒区块链溯源平台

CECBC

产品溯源 无法篡改

区块链+国防安全,科技是核心战斗力

CECBC

新技术 国防安全 科技信息

week8--课后作业

Geek_165f3d

我天!xx.equals(null) 是什么骚操作??

导导

功能扎实的ERP模版已上架应用库(支持免费安装使用)

明道云

实践录丨如何在鲲鹏服务器OpenEuler操作系统中快速部署OpenGauss数据库

华为云开发者联盟

数据库 鲲鹏920 操作系统 服务器 opengauss

【华为云技术分享】DLI跨源|当DLI遇见MongoDB

华为云开发者联盟

数据库 mongodb dlib 数据集 华为云

java高并发系列 - 第11天:线程中断的几种方式

简爱W

骚操作!用 CPU 烤肉,这位程序员做到了!

程序员生活志

程序员 gpu 程序人生

六字说出微服务的本质

看山

架构 微服务 签约计划第二季

一条更新sql在mysql中是怎么执行的

简爱W

LeetCode题解:189. 旋转数组,pop+unshift一行,JavaScript,详细注释

Lee Chen

大前端 LeetCode

Spring系列第2篇:控制反转(IoC)与依赖注入(DI),晦涩难懂么?

老大哥

谷歌云服务故障原因分析和补救措施_语言 & 开发_Sergio De Simone_InfoQ精选文章