写点什么

谷歌云服务故障原因分析和补救措施

  • 2018-07-27
  • 本文字数:756 字

    阅读完需:约 2 分钟

谷歌公布了近期的一个事件的根本原因分析结果,该事件影响了谷歌的部分云服务,并在大约 32 分钟的时间内将错误率提高了 33%至 87%,后续他们将采取措施改善平台性能和可用性。

该事件影响了很多依赖 Google HTTP(S) 负载均衡器的谷歌服务的客户,包括 Google Kubernetes Engine、Google App Engine、Google Cloud Functions、Stackdriver Web UI、Dialogflow 和 Cloud Support Portal/API。客户在大约 32 分钟的时间内随机收到 502 错误码或连接被重置的错误,这是从谷歌工程师接收到监控系统发出故障率警报的那一刻开始到部署修复程序的时间。

Google HTTP(S) 负载均衡旨在均衡多个后端实例和多个区域的 HTTP 和 HTTPS 流量。它的一个好处是云应用程序可以使用单个全局 IP 地址,极大地简化了 DNS 设置。为了在连接设置期间实现最佳性能,该服务利用第一层谷歌前端(GFE)就近接收用户请求,并将请求转发到第二层 GFE。第二层 GFE 构成全局服务器网络,将请求发送到相应的后端,而不管它们位于哪个区域。

事件的根本原因是,为了提高第二个 GFE 层的安全性和性能而添加的新功能中包含未检测到的错误。该错误是由生产环境中的一个配置变更引发的,它会导致 GFE 随机重启,而在重启过程中,服务容量丢失。

所幸的是,包含该错误的功能尚未投入使用,因此谷歌工程师通过恢复配置变更来部署修复程序,服务在几分钟后恢复其正常行为,在缓存热身后故障率也恢复正常。

为了预防事件再次发生,除了改进 GFE 测试栈并添加更多安全措施以防止未在使用中的功能被错误投入使用外,Google Cloud 团队还计划改善 GFE 池不同分片之间的隔离,以缩小故障范围,并为 GFE 池的配置变更创建仪表盘,让工程师更容易识别有问题的系统变更。

详细信息请阅读谷歌官方事故声明

查看英文原文 Google Cloud Incident Root-cause Analysis and Remediation

2018-07-27 05:362658
用户头像

发布了 731 篇内容, 共 454.0 次阅读, 收获喜欢 2003 次。

关注

评论

发布
暂无评论
发现更多内容

您的出门“最后三公里”问题解决啦!

亚马逊云科技 (Amazon Web Services)

为什么要学习JVM,仅为面试?又该如何学习?

Java架构师迁哥

Flutter 改善套娃地狱问题(仿喜马拉雅PC页面举例)

小呆呆666

flutter android 大前端 iOS Developer

Flutter GetX使用---简洁的魅力!

小呆呆666

flutter android 大前端 iOS Developer

为你的身份证“加盾”,鉴伪更精准,传输更安全

百度大脑

人工智能 数据安全 身份证

北鲲云超算平台如何加速生命科学研究

北鲲云

秋招冲刺:网络安全工程师入围成功之旅!!

网络安全学海

面试 运维 网络安全 信息安全 渗透

百度AICA迎来毕业季,55位新晋“首席AI架构师”推进产业智能化

百度大脑

人工智能 百度 架构师

新常态下的CMDB系统规划与落地

云智慧AIOps社区

CMDB 智能运维

Dubbo 3.0.0 来了!还学得动吗?

青年IT男

dubbo

前端 JavaScript 中 JSON.stringify() 的基本用法

编程三昧

JavaScript 大前端

快手封停多个内容侵权账号:如何严打短视频内容侵权行为

石头IT视角

国足晋级12强!看人工智能如何更好地预测世界级赛事!

亚马逊云科技 (Amazon Web Services)

【源码篇】Handler那些事(万字图文)

小呆呆666

Java android 源码 Android Studio Android进阶

【源码篇】ThreadLocal的奇思妙想(万字图文)

小呆呆666

Java 源码 架构 源码分析 设计

eKuiper 与百度智能边缘框架 BIE 集成方案

EMQ映云科技

边缘计算 边缘技术 边缘流式数据 #百度# 智能IoT边缘服务

密码合规测评新服务:“微咨询”正式发布

腾讯安全云鼎实验室

密码合规 微咨询

一种更优雅的Flutter Dialog解决方案

小呆呆666

flutter android 大前端 iOS Developer

解放生产力,自动化生成Vue组件文档

vivo互联网技术

Vue 自动化 大前端 组件

为什么很多时候,我们会感觉企业越大,效率越低呢?

石云升

职场经验 管理经验 6月日更

一妹子揭露美团面试中一些不愉快的事情(Java岗)

Java架构师迁哥

科技前沿:一张图数字孪生北京大兴国际机

一只数据鲸鱼

数据可视化 智慧城市 指挥交通 智慧航空

高性能计算与人工智能何处去?英特尔剑指XPU

E科讯

JavaScript中的Set数据操作:交集、差集、交集、对称差集

devpoint

set JavaScrip 6月日更

如何优雅的设计DWS层?

云祁

大数据 数据仓库 维度建模

【视频】51CTO专访博睿数据COO吴静涛,解读IT运维“新范式”

博睿数据

千古无同局?围棋在线教育还有这样的打开方式!

亚马逊云科技 (Amazon Web Services)

DNS劫持该如何处理

网络安全学海

程序员 运维 网络安全 信息安全 DNS

5分钟速读之Rust权威指南(三十二)互斥体

wzx

rust

《原则》(二十九)

Changing Lin

混合推荐系统介绍(二十二)

Databri_AI

推荐系统 计算

谷歌云服务故障原因分析和补救措施_语言 & 开发_Sergio De Simone_InfoQ精选文章