把握行业变革关键节点,12 月 19 日 - 20 日,AICon北京站即将重磅启幕! 了解详情
写点什么

谷歌云服务故障原因分析和补救措施

  • 2018-07-27
  • 本文字数:756 字

    阅读完需:约 2 分钟

谷歌公布了近期的一个事件的根本原因分析结果,该事件影响了谷歌的部分云服务,并在大约 32 分钟的时间内将错误率提高了 33%至 87%,后续他们将采取措施改善平台性能和可用性。

该事件影响了很多依赖 Google HTTP(S) 负载均衡器的谷歌服务的客户,包括 Google Kubernetes Engine、Google App Engine、Google Cloud Functions、Stackdriver Web UI、Dialogflow 和 Cloud Support Portal/API。客户在大约 32 分钟的时间内随机收到 502 错误码或连接被重置的错误,这是从谷歌工程师接收到监控系统发出故障率警报的那一刻开始到部署修复程序的时间。

Google HTTP(S) 负载均衡旨在均衡多个后端实例和多个区域的 HTTP 和 HTTPS 流量。它的一个好处是云应用程序可以使用单个全局 IP 地址,极大地简化了 DNS 设置。为了在连接设置期间实现最佳性能,该服务利用第一层谷歌前端(GFE)就近接收用户请求,并将请求转发到第二层 GFE。第二层 GFE 构成全局服务器网络,将请求发送到相应的后端,而不管它们位于哪个区域。

事件的根本原因是,为了提高第二个 GFE 层的安全性和性能而添加的新功能中包含未检测到的错误。该错误是由生产环境中的一个配置变更引发的,它会导致 GFE 随机重启,而在重启过程中,服务容量丢失。

所幸的是,包含该错误的功能尚未投入使用,因此谷歌工程师通过恢复配置变更来部署修复程序,服务在几分钟后恢复其正常行为,在缓存热身后故障率也恢复正常。

为了预防事件再次发生,除了改进 GFE 测试栈并添加更多安全措施以防止未在使用中的功能被错误投入使用外,Google Cloud 团队还计划改善 GFE 池不同分片之间的隔离,以缩小故障范围,并为 GFE 池的配置变更创建仪表盘,让工程师更容易识别有问题的系统变更。

详细信息请阅读谷歌官方事故声明

查看英文原文 Google Cloud Incident Root-cause Analysis and Remediation

2018-07-27 05:363249
用户头像

发布了 731 篇内容, 共 482.7 次阅读, 收获喜欢 2008 次。

关注

评论

发布
暂无评论
发现更多内容

京东云JoyAgent持续开源!多模态RAG能力正式开源

京东科技开发者

RFID通道机采购攻略:不同场景怎么选型号?

斯科信息

RFID通道机 斯科

COB封装LED显示屏对比SMD,优势到底在哪?

Dylan

LED LED display LED屏幕 COB SMD

数字藏品(NFT)区块链开发流程

北京木奇移动技术有限公司

数字藏品 区块链开发 软件外包公司

美团医美健康无人仓小程序系统:即时零售新解决方案详解

微擎应用市场

仿微信 IM 即时通讯小程序系统:全场景沟通解决方案

微擎应用市场

去中心化交易所 dex设计方案

西安链酷科技

图纸无国界!元图CAD智能翻译,让全球工程协作零障碍

元图CAD

图纸翻译 多语言互译

企业海外营销组织架构设计:全球本土化团队的管理新模式

Wolink

外贸独立站 海外社媒营销 海外营销推广 品牌出海 海外红人营销

企业海外营销本地化深度:建立跨文化营销决策机制

Wolink

出海企业 海外社媒营销 海外营销推广 海外红人营销 品牌推广

火山引擎向量数据库 Milvus 版正式商业化:AI 时代的向量检索新标杆

火山引擎开发者社区

数据驱动的海外红人营销:如何用AI工具精准评估ROI

Wolink

海外社媒营销 海外营销推广 海外社媒推广 海外红人营销 品牌推广

【浪潮海岳inDataX数据中台专栏】 流批一体技术构建多源异构湖仓的数据采集与实时计算实践

inBuilder低代码平台

数据处理 流批一体 湖仓一体 inDataX数据中台

打破场景限制!CAD看图软件如何多端同步免费CAD看图?

在路上

cad cad看图 CAD看图王

周卫林|大数据通往大模型的钥匙:NoETL to Trusted AI

Aloudata

noetl ChatBI 智能问数 dataagent Semantic Fabric

微店商品列表API,轻松采集商品列表数据

Datafox(数据狐)

微店API 微店商品数据采集 微店商品列表API 关键词搜索微店接口 微店数据

社交电商 + 本地生活服务小程序系统:连接社交与消费的创新解决方案

微擎应用市场

EMR AI助手开启公测:用AI重塑大数据运维,更简单、更智能

阿里云大数据AI技术

阿里云 AI EMR

太顶了!全网最全的600+图片生成玩法!

王磊

集成专栏——OpenAPI自定义入参校验

inBuilder低代码平台

OpenAPI 集成平台 ERP软件 入参校验

微店店铺所有商品API接口指南

Datafox(数据狐)

微店API 微店数据采集 微店数据 微店店铺所有商品API 微店店铺商品采集

超越常规扫码:鸿蒙扫码如何实现复杂、远距二维码的快速精准捕捉

HarmonyOS SDK

HarmonyOS NEXT HarmonyOS SDK应用服务

CAD测量时捕捉不到点怎么办?

在路上

cad CAD看图王

地图可视化案例详解|基于smardaten实现企业运营监测地图大屏

数睿数据

无代码开发 数睿数据 地图可视化

智达方通EPM解决方案的破局秘诀——重塑金融行业预算管理新格局

智达方通

数据分析 金融 金融行业 全面预算管理

Web3 去中心化趋势预测大概方案

西安链酷科技

CyberAI多模态数据平台焕新升级!七大核心功能解锁高效管理新体验

数新网络官方账号

网红营销实战指南:从策略制定到效果评估的完整流程

Wolink

海外社媒营销 海外营销推广 海外推广 品牌出海 海外红人营销

2026年网红营销新趋势:短视频与AI技术的创新应用

Wolink

出海 海外社媒营销 海外营销推广 海外红人营销 品牌推广

智慧病房里的“鸿蒙温度”

最新动态

如何选择合适的 Diskless Kafka

AutoMQ

kafka 架构 云原生 diskless

谷歌云服务故障原因分析和补救措施_语言 & 开发_Sergio De Simone_InfoQ精选文章