写点什么

谷歌云服务故障原因分析和补救措施

  • 2018-07-27
  • 本文字数:756 字

    阅读完需:约 2 分钟

谷歌公布了近期的一个事件的根本原因分析结果,该事件影响了谷歌的部分云服务,并在大约 32 分钟的时间内将错误率提高了 33%至 87%,后续他们将采取措施改善平台性能和可用性。

该事件影响了很多依赖 Google HTTP(S) 负载均衡器的谷歌服务的客户,包括 Google Kubernetes Engine、Google App Engine、Google Cloud Functions、Stackdriver Web UI、Dialogflow 和 Cloud Support Portal/API。客户在大约 32 分钟的时间内随机收到 502 错误码或连接被重置的错误,这是从谷歌工程师接收到监控系统发出故障率警报的那一刻开始到部署修复程序的时间。

Google HTTP(S) 负载均衡旨在均衡多个后端实例和多个区域的 HTTP 和 HTTPS 流量。它的一个好处是云应用程序可以使用单个全局 IP 地址,极大地简化了 DNS 设置。为了在连接设置期间实现最佳性能,该服务利用第一层谷歌前端(GFE)就近接收用户请求,并将请求转发到第二层 GFE。第二层 GFE 构成全局服务器网络,将请求发送到相应的后端,而不管它们位于哪个区域。

事件的根本原因是,为了提高第二个 GFE 层的安全性和性能而添加的新功能中包含未检测到的错误。该错误是由生产环境中的一个配置变更引发的,它会导致 GFE 随机重启,而在重启过程中,服务容量丢失。

所幸的是,包含该错误的功能尚未投入使用,因此谷歌工程师通过恢复配置变更来部署修复程序,服务在几分钟后恢复其正常行为,在缓存热身后故障率也恢复正常。

为了预防事件再次发生,除了改进 GFE 测试栈并添加更多安全措施以防止未在使用中的功能被错误投入使用外,Google Cloud 团队还计划改善 GFE 池不同分片之间的隔离,以缩小故障范围,并为 GFE 池的配置变更创建仪表盘,让工程师更容易识别有问题的系统变更。

详细信息请阅读谷歌官方事故声明

查看英文原文 Google Cloud Incident Root-cause Analysis and Remediation

2018-07-27 05:363172
用户头像

发布了 731 篇内容, 共 478.4 次阅读, 收获喜欢 2008 次。

关注

评论

发布
暂无评论
发现更多内容

UDP报头是通过结构体位段实现的吗

linux大本营

网络协议 udp UDP协议

重载++运算符分别实现i++和++i

linux大本营

运算符 数据结构与算法

推荐一些好用的ChatGPT扩展工具

石云升

ChatGPT 三周年连更

解析下rte_pktmbuf_pool_create参数含义

linux大本营

DPDK DPDK开发

linux dbus代码举例

linux大本营

Linux C++

Django笔记十七之group by 分组用法总结

Hunter熊

Python django count 分组查询 sum

数据存储与访问——文件存储读写

芯动大师

application 三周年连更 SharedPreference

Java - 泛型

乌龟哥哥

三周年连更

dpdk中,如何建立portid/queue的配置和逻辑核心的关系

linux大本营

队列 DPDK DPDK开发

一文带你了解实战常用JavaScript API

程序员海军

JavaScript 三周年连更

扎最深的寨,打最持久的仗——一知智能AI商业化攻略访谈录

B Impact

基于Flutter实现Windows平台离线大模型对话应用实战

轻口味

flutter AI windows 跨平台 三周年连更

CefSharp自定义缓存实现

沙漠尽头的狼

Go并发编程的秘密武器:内存模型和同步原语

Jack

linux dbus客户端和服务器示例代码

linux大本营

c++ Linux dbus

nvim 配置c++环境

linux大本营

vim C++

6G 通信技术和 5G 通信技术的区别

汪子熙

通讯协议 通讯 三周年连更

2022-04-26:给定一个数组componets,长度为A, componets[i] = j,代表i类型的任务需要耗时j 给定一个二维数组orders,长度为M, orders[i][0]代表i

福大大架构师每日一题

golang 算法

一键生成通用的微服务(gRPC)项目代码,让你的开发效率翻倍提升

vison

Go 微服务 gRPC 代码自动生成

如何建设IT运维流程与体系

穿过生命散发芬芳

运维体系 三周年连更

LuckyDraw发布啦

进基的小张

开源项目 Github'

打工人逃不开「单人单岗」

Java 架构 程序人生 职场

openbmc 中如何使用D-bus

linux大本营

dbus openBMC

概述产品设计通用七原则

阿泽🧸

产品设计 三周年连更

minikube 初体验环境搭建

IT蜗壳-Tango

三周年连更

dpdk l2fwd如何初始化每个逻辑核的port/queue的

linux大本营

队列 DPDK DPDK开发

京韵、京城、京味:从一台服务器看数字北京

脑极体

算力

Golang new 和 make 函数

宇宙之一粟

Go make new 三周年连更

共话数字化新技术、新趋势 华为云开发者日东莞站成功举办

极客天地

系统稳定性建设之我见(64/100)

hackstoic

质量管理 系统稳定性

写一个完整的SHOW TABLE STATUS 语句返回的所有表的状态信息对应的结构体

linux大本营

数据库 存储 结构体 C++

谷歌云服务故障原因分析和补救措施_语言 & 开发_Sergio De Simone_InfoQ精选文章