在 2025 收官前,看清 Data + AI 的真实走向,点击查看 BUILD 大会精华版 了解详情
写点什么

谷歌云服务故障原因分析和补救措施

  • 2018-07-27
  • 本文字数:756 字

    阅读完需:约 2 分钟

谷歌公布了近期的一个事件的根本原因分析结果,该事件影响了谷歌的部分云服务,并在大约 32 分钟的时间内将错误率提高了 33%至 87%,后续他们将采取措施改善平台性能和可用性。

该事件影响了很多依赖 Google HTTP(S) 负载均衡器的谷歌服务的客户,包括 Google Kubernetes Engine、Google App Engine、Google Cloud Functions、Stackdriver Web UI、Dialogflow 和 Cloud Support Portal/API。客户在大约 32 分钟的时间内随机收到 502 错误码或连接被重置的错误,这是从谷歌工程师接收到监控系统发出故障率警报的那一刻开始到部署修复程序的时间。

Google HTTP(S) 负载均衡旨在均衡多个后端实例和多个区域的 HTTP 和 HTTPS 流量。它的一个好处是云应用程序可以使用单个全局 IP 地址,极大地简化了 DNS 设置。为了在连接设置期间实现最佳性能,该服务利用第一层谷歌前端(GFE)就近接收用户请求,并将请求转发到第二层 GFE。第二层 GFE 构成全局服务器网络,将请求发送到相应的后端,而不管它们位于哪个区域。

事件的根本原因是,为了提高第二个 GFE 层的安全性和性能而添加的新功能中包含未检测到的错误。该错误是由生产环境中的一个配置变更引发的,它会导致 GFE 随机重启,而在重启过程中,服务容量丢失。

所幸的是,包含该错误的功能尚未投入使用,因此谷歌工程师通过恢复配置变更来部署修复程序,服务在几分钟后恢复其正常行为,在缓存热身后故障率也恢复正常。

为了预防事件再次发生,除了改进 GFE 测试栈并添加更多安全措施以防止未在使用中的功能被错误投入使用外,Google Cloud 团队还计划改善 GFE 池不同分片之间的隔离,以缩小故障范围,并为 GFE 池的配置变更创建仪表盘,让工程师更容易识别有问题的系统变更。

详细信息请阅读谷歌官方事故声明

查看英文原文 Google Cloud Incident Root-cause Analysis and Remediation

2018-07-27 05:363297
用户头像

发布了 731 篇内容, 共 485.8 次阅读, 收获喜欢 2008 次。

关注

评论

发布
暂无评论
发现更多内容

国产大模型Qwen3-32B完全本地化实战:LangChain + vLLM 构建企业级智能体核心引擎

测吧(北京)科技有限公司

怎么用AI完成海报设计?3个常用AI工具盘点推荐!

职场工具箱

AI 海报生成 AIGC AI绘画 效率软件

使用观测云打造企业级监控告警中心

观测云

监控告警

我是如何操纵Bugcrowd平台排名的 - 漏洞挖掘技术解析

qife122

漏洞挖掘 平台安全

Context Engineering: 基于 OceanBase 的代码文档检索引擎

老纪的技术唠嗑局

AI+ OceanBase 社区版 文档检索

MES系统是什么?从核心功能到行业应用,打造智能制造新引擎

万界星空科技

数字化 制造业 mes 万界星空科技mes 智能制造数字化转型

AI正在悄悄学坏?Anthropic首次披露潜意识微调的风险——慢慢学AI161

AI决策者洞察

大模型,意识

Awesome ChatGPT Prompts - 提升AI对话体验的精选提示库

qife122

开发者工具 ChatGPT

基于某中心Bedrock的DIVA物流智能助手技术解析

qife122

人工智能 生成式AI

AI/ML工作负载的可持续性优化实践

qife122

机器学习 云计算

Ansible部署Node_exporter

天翼云开发者社区

ansible 应用自动化运维

基于加密数据的机器学习模型构建

qife122

同态加密 数据隐私

HarmonyOS SDK助力讯飞听见App能力建设

HarmonyOS SDK

HarmonyOS NEXT HarmonyOS SDK应用服务

忘掉Ollama! 将GPT OSS私有部署推理性能提升100倍的部署教程

GPUStack

大模型 GPT GPU集群 vLLM

一键上云不是梦!Apache Dubbo 发布微服务集群部署与全新控制台

阿里巴巴云原生

Apache 阿里云 微服务 云原生 dubbo

基于生成式AI的设备维护推荐系统构建指南

qife122

知识库 生成式AI

实时检测机器人广告点击的深度学习技术

qife122

深度学习 实时检测

统一平台全面保护:NinjaOne收购Dropsuite的技术意义

qife122

数据备份 IT管理

Alexa语音识别技术在英语学习中的应用

qife122

语音识别 数据增强

GPT OSS 双模型上线,百度百舸全面支持快速部署

Baidu AICLOUD

GPT 开源大模型 推理部署

【开源项目】基于Rust实现沪深交易所流式二进制协议

歆晨技术笔记

rust 二进制 #交易所

Labubu 免费送 | 认证、答疑、交流一站搞定!TDengine 开发者新据点上线

TDengine

tdengine 时序数据库

k8s集群添加master节点报control plane 错误

天翼云开发者社区

容器

MatrixOne存储优化:HTAP场景下的智能存储优化策略

MatrixOrigin

Flink 2.1 SQL:解锁实时数据与AI集成,实现可扩展流处理

Apache Flink

大数据 flink 实时计算

硅芯片创新如何成为某中心云服务的"秘密武器"

qife122

云计算 机器学习加速

从多引擎到统一平台:去哪儿网的 StarRocks 实践

StarRocks

数据库 OLAP StarRocks 数据查询 MPP 分布式数据库

Fabarta个人专属智能体:三维搜索链+动态大纲重构教材开发范式

Fabarta

人工智能 智能体 agent

【跨国数仓迁移最佳实践5】MaxCompute近线查询解决方案助力物流电商等实时场景实现高效查询

阿里云大数据AI技术

人工智能 大数据 查询优化 批处理 数据迁移

MCP+LLM+Agent:企业AI落地的新基建设计

测吧(北京)科技有限公司

[鸿蒙征文]鸿蒙 ArkTS AppStorage 数据同步失效:五大原因与高效解决策略

谢道韫

鸿蒙 HarmonyOS HarmonyOS NEXT

谷歌云服务故障原因分析和补救措施_语言 & 开发_Sergio De Simone_InfoQ精选文章