写点什么

谷歌云服务故障原因分析和补救措施

  • 2018-07-27
  • 本文字数:756 字

    阅读完需:约 2 分钟

谷歌公布了近期的一个事件的根本原因分析结果,该事件影响了谷歌的部分云服务,并在大约 32 分钟的时间内将错误率提高了 33%至 87%,后续他们将采取措施改善平台性能和可用性。

该事件影响了很多依赖 Google HTTP(S) 负载均衡器的谷歌服务的客户,包括 Google Kubernetes Engine、Google App Engine、Google Cloud Functions、Stackdriver Web UI、Dialogflow 和 Cloud Support Portal/API。客户在大约 32 分钟的时间内随机收到 502 错误码或连接被重置的错误,这是从谷歌工程师接收到监控系统发出故障率警报的那一刻开始到部署修复程序的时间。

Google HTTP(S) 负载均衡旨在均衡多个后端实例和多个区域的 HTTP 和 HTTPS 流量。它的一个好处是云应用程序可以使用单个全局 IP 地址,极大地简化了 DNS 设置。为了在连接设置期间实现最佳性能,该服务利用第一层谷歌前端(GFE)就近接收用户请求,并将请求转发到第二层 GFE。第二层 GFE 构成全局服务器网络,将请求发送到相应的后端,而不管它们位于哪个区域。

事件的根本原因是,为了提高第二个 GFE 层的安全性和性能而添加的新功能中包含未检测到的错误。该错误是由生产环境中的一个配置变更引发的,它会导致 GFE 随机重启,而在重启过程中,服务容量丢失。

所幸的是,包含该错误的功能尚未投入使用,因此谷歌工程师通过恢复配置变更来部署修复程序,服务在几分钟后恢复其正常行为,在缓存热身后故障率也恢复正常。

为了预防事件再次发生,除了改进 GFE 测试栈并添加更多安全措施以防止未在使用中的功能被错误投入使用外,Google Cloud 团队还计划改善 GFE 池不同分片之间的隔离,以缩小故障范围,并为 GFE 池的配置变更创建仪表盘,让工程师更容易识别有问题的系统变更。

详细信息请阅读谷歌官方事故声明

查看英文原文 Google Cloud Incident Root-cause Analysis and Remediation

2018-07-27 05:363159
用户头像

发布了 731 篇内容, 共 477.6 次阅读, 收获喜欢 2008 次。

关注

评论

发布
暂无评论
发现更多内容

哈尔滨二级等保测评:关注重点与实施要点

等保测评

基于 Apache RocketMQ 的 ApsaraMQ Serverless 架构升级

Apache RocketMQ

云原生 事件驱动 消息队列

开赛 | KWDB 核心贡献挑战赛,30万奖金池等你来瓜分!

KaiwuDB

开源 Qwen3-Coder 是顶级 AI 阳谋,阿里的野心藏不住了

程序员晚枫

开源 大模型

海外版“JoyLinker”来了!全家桶套件免费开放!

BeeWorks

即时通讯 IM 私有化部署

CrossOver玩《幻兽帕鲁》进不去游戏、黑屏怎么办?

阿拉灯神丁

游戏卡顿 CrossOver Mac下载 如何在Mac上运行win游戏 幻兽帕鲁 雷神加速器

构建编程智能体一年实践的经验教训分享

Baihai IDP

程序员 AI AI Agent 编程智能体

Apache RocketMQ 创新论文被软件工程顶会 FM 2024 录用

Apache RocketMQ

倒计时2天!合合信息WAIC黑科技剧透来袭!

合合技术团队

人工智能 算法 #大数据

Voice AI Agent 知识库:打造你自己的语音智能体!

声网

Mac mini玩游戏怎么样?怎么提高Mac mini玩游戏的流畅度?

阿拉灯神丁

CrossOver Mac下载 如何在Mac上运行win游戏 苹果电脑必备软件 Mac游戏推荐 虚拟机安装

哈尔滨三级等保建设:从规划到落地的关键步骤

等保测评

京东零售重磅开源 | OxyGent:像搭乐高一样组装AI团队,实现群体智能

京东零售技术

中烟创新推出“小快轻准”应用产品,助力中小企业数字化转型

中烟创新

1688图片搜索商品API指南

tbapi

1688API接口 1688拍立淘接口 1688图片搜索API 1688拍立淘api

利用CSRF暴力破解用户ID实现批量删除用户攻击

qife122

CSRF WEB安全

经典MCP服务器漏洞如何威胁您的整个AI代理系统

qife122

SQL注入 漏洞挖掘

区块链预付卡APP的运营策略

北京木奇移动技术有限公司

区块链开发 软件外包公司 web3开发

基于YOLOv8的交通车辆(12种常见车型)实时检测系统识别项目|完整源码数据集+PyQt5界面+完整训练流程+开箱即用!

申公豹

yolov8

提示注入2.0:混合AI威胁下的新型网络安全挑战

qife122

网络安全 提示注入

企业为什么需要私有化部署的IM软件?

BeeWorks

即时通讯 IM 私有化部署

大数据-51 Redis 分布式锁到哨兵机制:一文掌握Redis高可用架构

武子康

Java redis 大数据 缓存 分布式

如何通过自动化工具发现10+SQL注入和30+XSS漏洞

qife122

网络安全 自动化工具

即时通讯:BeeWorks私有化方案重塑企业沟通方式

BeeWorks

即时通讯 IM 私有化部署

算法赋能再升级!非凸底仓增强算法全面上线江海证券

非凸科技

区块链预付卡APP的上线流程

北京木奇移动技术有限公司

区块链开发 软件外包公司 web3开发

RocketMQ 打破锁性能瓶颈之道

Apache RocketMQ

云原生 消息队列

深度剖析 RocketMQ 5.0 之架构解析:云原生架构如何支撑多元化场景?

Apache RocketMQ

RocketMQ 云原生 消息队列

生产管理系统赋能烟草行业:激活高效生产新动能

中烟创新

深度剖析 RocketMQ 5.0 之消息进阶:如何支撑复杂业务消息场景?

Apache RocketMQ

RocketMQ 云原生 消息队列

BEVDet 算法详细解读-全网最全攻略

十三Tech

谷歌云服务故障原因分析和补救措施_语言 & 开发_Sergio De Simone_InfoQ精选文章