9 月 13 日,2025 Inclusion・外滩大会「开源嘉年华」正在限量报名中! 了解详情
写点什么

谷歌云服务故障原因分析和补救措施

  • 2018-07-27
  • 本文字数:756 字

    阅读完需:约 2 分钟

谷歌公布了近期的一个事件的根本原因分析结果,该事件影响了谷歌的部分云服务,并在大约 32 分钟的时间内将错误率提高了 33%至 87%,后续他们将采取措施改善平台性能和可用性。

该事件影响了很多依赖 Google HTTP(S) 负载均衡器的谷歌服务的客户,包括 Google Kubernetes Engine、Google App Engine、Google Cloud Functions、Stackdriver Web UI、Dialogflow 和 Cloud Support Portal/API。客户在大约 32 分钟的时间内随机收到 502 错误码或连接被重置的错误,这是从谷歌工程师接收到监控系统发出故障率警报的那一刻开始到部署修复程序的时间。

Google HTTP(S) 负载均衡旨在均衡多个后端实例和多个区域的 HTTP 和 HTTPS 流量。它的一个好处是云应用程序可以使用单个全局 IP 地址,极大地简化了 DNS 设置。为了在连接设置期间实现最佳性能,该服务利用第一层谷歌前端(GFE)就近接收用户请求,并将请求转发到第二层 GFE。第二层 GFE 构成全局服务器网络,将请求发送到相应的后端,而不管它们位于哪个区域。

事件的根本原因是,为了提高第二个 GFE 层的安全性和性能而添加的新功能中包含未检测到的错误。该错误是由生产环境中的一个配置变更引发的,它会导致 GFE 随机重启,而在重启过程中,服务容量丢失。

所幸的是,包含该错误的功能尚未投入使用,因此谷歌工程师通过恢复配置变更来部署修复程序,服务在几分钟后恢复其正常行为,在缓存热身后故障率也恢复正常。

为了预防事件再次发生,除了改进 GFE 测试栈并添加更多安全措施以防止未在使用中的功能被错误投入使用外,Google Cloud 团队还计划改善 GFE 池不同分片之间的隔离,以缩小故障范围,并为 GFE 池的配置变更创建仪表盘,让工程师更容易识别有问题的系统变更。

详细信息请阅读谷歌官方事故声明

查看英文原文 Google Cloud Incident Root-cause Analysis and Remediation

2018-07-27 05:363106
用户头像

发布了 731 篇内容, 共 474.6 次阅读, 收获喜欢 2008 次。

关注

评论

发布
暂无评论
发现更多内容

云原生时代下,操作系统生态的挑战与机遇

OpenAnolis小助手

云计算 云原生 操作系统 龙蜥社区 蚂蚁集团

语音合成技术在智能驾驶中的创新与应用

数据堂

语音合成技术在智能驾驶中的应用与展望

数据堂

测试过程管理揭秘:敏捷站会、项目时间、推动关键技巧

测吧(北京)科技有限公司

测试

语音合成技术在智能驾驶中的应用与挑战

数据堂

Pyth 预言机: 它们如何影响Hover?

股市老人

从需求到测试计划:项目流程与规范关键输入输出

测吧(北京)科技有限公司

测试

思考-RBAC中对于权限编码部分的压缩处理(RoaringBitmap)

alexgaoyh

Java 位图 BitMap Roaringbitmap 位图压缩

如何精准推动外包团队的工作

测吧(北京)科技有限公司

测试

软件测试/测试开发/全日制|Pytest allure如何添加测试用例步骤

霍格沃兹测试开发学社

SRP (Secure Remote Password Protocol)

Geek_44385e

srp

需求管理智慧:与产品经理巧妙沟通解决不规范与变更频繁

测吧(北京)科技有限公司

测试

质量标准深度解读:覆盖度、bug等级、用户体验窥探

测吧(北京)科技有限公司

测试

九章云极DataCanvas公司荣登“2023Venture50投资界数字科技”榜

九章云极DataCanvas

云原生与低代码:加速提效,为行业拓荒期构建生态

不在线第一只蜗牛

云计算 云原生 低代码

九章云极DataCanvas公司入选《2023中国大模型产业创新服务商TOP30榜单》

九章云极DataCanvas

恒安嘉新启动鲲鹏原生应用开发合作

彭飞

软件测试/测试开发/全日制|MySQL安装最全教程

霍格沃兹测试开发学社

Kickoff会议与测试关注点:项目启动的黄金法则

测吧(北京)科技有限公司

测试

任务与责任划分:巧妙安排项目工作与任务

测吧(北京)科技有限公司

测试

跨团队协作智慧:资源寻找、支持申请、协作分工

测吧(北京)科技有限公司

测试

提高项目执行力:解析执行力差原因与提升方法

测吧(北京)科技有限公司

测试

DataCanvas会员中心正式上线,这些新春福利请接住!

九章云极DataCanvas

Casper Network加入Web3 领域 “Shark Tank” 的《Killer Whales》

股市老人

建立团队信任与凝聚力的六大实用方法

测吧(北京)科技有限公司

测试

ChatGPT 被曝泄露私密对话;美国 AI 企业一天蒸发 1.3 万亿市值丨 RTE 开发者日报 Vol.139

声网

项目排期揭秘:预估测试时间与灵活沟通工期不合理

测吧(北京)科技有限公司

测试

测试流程与规范指南:详解测试计划、用例与质量指标

测吧(北京)科技有限公司

测试

布局算力新基建,九章云极DataCanvas公司赋能AI产业高质量发展

九章云极DataCanvas

谷歌云服务故障原因分析和补救措施_语言 & 开发_Sergio De Simone_InfoQ精选文章