2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

事故分析的趋势和行为

  • 2017-12-03
  • 本文字数:1325 字

    阅读完需:约 4 分钟

Eric Siegler 是 PagerDuty 公司 DevOps 的负责人,他在上个月于伦敦举办的 Velocity 大会上发表了一份报告,分析了来自125 个不同组织在六个月的时间内的1000 份事故分析(post-mortems)【译注1】。他分析出的主要的趋势包括:无可非议的事故分析的普遍性;仅有1/100 的事故分析源于“人为错误”;以及对事件生命周期的分析可以提供对事件响应过程中相关弱点的深入见解。

由于信息是经由PagerDuty 的事故分析构建器功能从客户端处匿名收集(并保存) 的,Sigler 挖掘了这些数据,寻找常见的人名,结果发现一半的事故分析中都没有出现人名。Sigler 强调说,另外的一半数据中出现了人名也并不一定意味着存在一种指责文化,因为数据可能会以其他方式被曲解;例如,事故分析报告中提及了一个名为“Bob”的服务器(这种情况下,“Bob”也会被识别成人名,但其实是服务器的名字)。

至于明确提到的“人为的错误”,它作为事故被审查的一种可能的原因,经由Sigler 调查,他发现几乎没有证据可以证明事故分析的原因源于“人为错误”(只有1% 的事故分析与“人为错误”有关)。Sigler 以去年3 月的AWS S3 的故障为例强调了这一点,该事件的事故分析并没有声明人为错误是导致故障的一个原因,但媒体的报道泛泛地将其原因归咎个人

收集到的数据还表明,许多组织花费了大量的精力来详细说明事件的时间线(并且很多事故分析都不包含任何关于其他方面的文本信息)。Sigler 警告说,尽管了解被审查的事故是一项有用的练习,但跟踪常见事件的状态转换(启动、自检、改进、解决)可以得到更好的见解以改善整个响应过程。例如,在启动状态和自检状态之间的不断重复就对我们的监测和仪器的正确性提出了疑问。在启动状态和自检状态之间的不断重复可能表明在组织中的知识共享和职责分配方面存在瓶颈,或者仅仅是因为积累了太多的技术债务导致了系统的失败。

Sigler 的另一发现是,大多数的组织平均每月进行事故分析的次数不足一次。有三分之一的组织会在事故后的 24 小时内进行事故分析,还有三分之一的组织会在事故后的一星期内进行事故分析,剩下的那部分在一周后才会进行分析(这样通常很难能克服选择性遗忘)。

Sigler 还强调说,这只是一个小型的数据集,所以分析出结果可能会偏向于一些已经具有完备事故分析过程的组织,因次它们的运营看起来似乎更为成熟。

最后,Sigler 给观众提供了许多建议。首先,事故分析对于检查过程改进是否有助于消除系统中的错误很有帮助,另外,如果我们反复遇到相同的问题,事故分析也能起到很好的作用。其次,事故分析可以发现组织问题,因此,对事故分析结果的应用不能仅仅局限于技术改进。

想要了解更多关于建立事故分析过程的信息,请参考 PagerDuty 关于事故分析过程以及事故分析模板或者 Etsy 事故分析实践的相关内容。Etsy 同样开源了他们的数据收集和事故分析追踪工具

译注1:post-mortems,事故分析,又称事故复盘。当任何生产系统发生严重停机或类似事故时,所涉及的人员都必须写一份事故分析文档。文档描述事故,包括标题、摘要、影响、时间表、根本原因、什么工作/ 什么没有和行动项目。文档的重点是问题本身,以及如何在未来避免他们,而不是针对人或分摊责任。

查看英文原文: Post-Mortems Trends and Behaviors

2017-12-03 18:001848

评论

发布
暂无评论
发现更多内容

微服务之服务器缓存

Disaster

微服务

华为云河图KooMap:夯实数字孪生底座,点燃燎原星火

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 7 月 PK 榜

深度剖析线上应用节点流量隔离技术

阿里巴巴云原生

阿里云 云原生 流量隔离

一文熟知网络 – 文章巨长,但是很详细

邹志全

网络编程 计算机网络 架构设计

BFF网关模式开发指南

WizInfo

数据交换不失控:华为云EDS,让你的数据你做主

华为云开发者联盟

云计算 华为云 华为云开发者联盟 企业号 7 月 PK 榜

从钢铁行业数字化管控平台的智能进化,看超自动化能力边界

王吉伟频道

RPA 数字化转型 超自动化 业务流程自动化 钢铁行业

通俗易懂数仓建模—Inmon范式建模与Kimball维度建模

五分钟学大数据

大数据 数据仓库 维度建模

毕马威:中国算力关联产业规模可达24万亿元|报告

B Impact

IoTOS-v1.2.1接入J-IM(t-io)后台通知App

开源物联卡管理平台-设备管理

物联网平台 IoT 开源物联网 国产开源 开源项目介绍

2023-07-09:给定N、M两个参数, 一共有N个格子,每个格子可以涂上一种颜色,颜色在M种里选, 当涂满N个格子,并且M种颜色都使用了,叫一种有效方法。 求一共有多少种有效方法。 1 <= N,

福大大架构师每日一题

福大大架构师每日一题

一文了解潜力黑马Infiblue:借力Web3,释放元宇宙价值

西柚子

一文了解潜力黑马Infiblue:借力Web3,释放元宇宙价值

小哈区块

克服困难、提升学习效率的关键方法

叶小鍵

走向 Native 化:Spring&Dubbo AOT 技术示例与原理讲解

阿里巴巴云原生

spring 阿里云 云原生 dubbo native

基于云原生网关的全链路灰度实践

阿里巴巴云原生

阿里云 微服务 云原生

IoTOS-App(移动端) v0.1.0 免费开源 | 商用

开源物联卡管理平台-设备管理

物联网平台 IoT 开源物联网 国产开源 开源项目介绍

C++的list-map链表与映射表

芯动大师

数据增强之裁剪、翻转与旋转

timerring

人工智能

代码随想录 Day11 - 栈与队列(中)

jjn0703

链上衍生品协议 ProsperEx:探索 RWA 叙事,打造 DeFi 变异黑马

股市老人

一文搞懂常见的加密算法 | 社区征文

闫同学

网络 加密算法 年中技术盘点

Docker学习路线1:介绍

小万哥

Docker 程序员 容器 后端 开发

暗黑2能用Java开发?还能生成APP?

游戏开发 java17

事故分析的趋势和行为_DevOps & 平台工程_Manuel Pais_InfoQ精选文章