写点什么

事故分析的趋势和行为

  • 2017-12-03
  • 本文字数:1325 字

    阅读完需:约 4 分钟

Eric Siegler 是 PagerDuty 公司 DevOps 的负责人,他在上个月于伦敦举办的 Velocity 大会上发表了一份报告,分析了来自125 个不同组织在六个月的时间内的1000 份事故分析(post-mortems)【译注1】。他分析出的主要的趋势包括:无可非议的事故分析的普遍性;仅有1/100 的事故分析源于“人为错误”;以及对事件生命周期的分析可以提供对事件响应过程中相关弱点的深入见解。

由于信息是经由PagerDuty 的事故分析构建器功能从客户端处匿名收集(并保存) 的,Sigler 挖掘了这些数据,寻找常见的人名,结果发现一半的事故分析中都没有出现人名。Sigler 强调说,另外的一半数据中出现了人名也并不一定意味着存在一种指责文化,因为数据可能会以其他方式被曲解;例如,事故分析报告中提及了一个名为“Bob”的服务器(这种情况下,“Bob”也会被识别成人名,但其实是服务器的名字)。

至于明确提到的“人为的错误”,它作为事故被审查的一种可能的原因,经由Sigler 调查,他发现几乎没有证据可以证明事故分析的原因源于“人为错误”(只有1% 的事故分析与“人为错误”有关)。Sigler 以去年3 月的AWS S3 的故障为例强调了这一点,该事件的事故分析并没有声明人为错误是导致故障的一个原因,但媒体的报道泛泛地将其原因归咎个人

收集到的数据还表明,许多组织花费了大量的精力来详细说明事件的时间线(并且很多事故分析都不包含任何关于其他方面的文本信息)。Sigler 警告说,尽管了解被审查的事故是一项有用的练习,但跟踪常见事件的状态转换(启动、自检、改进、解决)可以得到更好的见解以改善整个响应过程。例如,在启动状态和自检状态之间的不断重复就对我们的监测和仪器的正确性提出了疑问。在启动状态和自检状态之间的不断重复可能表明在组织中的知识共享和职责分配方面存在瓶颈,或者仅仅是因为积累了太多的技术债务导致了系统的失败。

Sigler 的另一发现是,大多数的组织平均每月进行事故分析的次数不足一次。有三分之一的组织会在事故后的 24 小时内进行事故分析,还有三分之一的组织会在事故后的一星期内进行事故分析,剩下的那部分在一周后才会进行分析(这样通常很难能克服选择性遗忘)。

Sigler 还强调说,这只是一个小型的数据集,所以分析出结果可能会偏向于一些已经具有完备事故分析过程的组织,因次它们的运营看起来似乎更为成熟。

最后,Sigler 给观众提供了许多建议。首先,事故分析对于检查过程改进是否有助于消除系统中的错误很有帮助,另外,如果我们反复遇到相同的问题,事故分析也能起到很好的作用。其次,事故分析可以发现组织问题,因此,对事故分析结果的应用不能仅仅局限于技术改进。

想要了解更多关于建立事故分析过程的信息,请参考 PagerDuty 关于事故分析过程以及事故分析模板或者 Etsy 事故分析实践的相关内容。Etsy 同样开源了他们的数据收集和事故分析追踪工具

译注1:post-mortems,事故分析,又称事故复盘。当任何生产系统发生严重停机或类似事故时,所涉及的人员都必须写一份事故分析文档。文档描述事故,包括标题、摘要、影响、时间表、根本原因、什么工作/ 什么没有和行动项目。文档的重点是问题本身,以及如何在未来避免他们,而不是针对人或分摊责任。

查看英文原文: Post-Mortems Trends and Behaviors

2017-12-03 18:001878

评论

发布
暂无评论
发现更多内容

JVM调优简要思想及简单案例-代码执行与内存区域

zarmnosaj

6月月更

JASON

Jason199

json js math 6月月更

关于 Angular SSR 应用在渲染中止时如何避免内存泄漏问题的一些尝试

汪子熙

typescript angular SSR Spartacus 6月月更

C#入门系列(十八) -- 类的属性、索引、事件和this关键字

陈言必行

C# 6月月更

InfoQ 极客传媒15周年庆征文|云原生运维排障的关键要点

穿过生命散发芬芳

云原生 6月月更 InfoQ极客传媒15周年庆

手把手教你在CentOS环境安装Docker

迷彩

Docker 架构 运维 6月月更 InfoQ极客传媒15周年庆

创建视图——基于函数的视图 Django

海拥(haiyong.site)

Python django 6月月更

百度团队CSS编码规范

sean77

远程办公三部曲 - 如何提高沟通效率| 社区征文

耳东@Erdong

沟通 远程办公 6月月更 初夏征文

Mysql源码阅读 -- Windows10编译运行MySQL源码

c++ MySQL 源码学习

前端食堂技术周刊第 41 期:TC 39 会议、IE 退役、React Labs、Storybook 组件百科全书

童欧巴

前端 React IE TC39

别再说你不知道分布式事务了

牧小农

BOM核心——window对象之Golbal

大熊G

JavaScript 前端 6月月更

模块四

Geek_2ce415

Docker 实用技巧二

Nick

Docker 容器 实用技巧 6月月更 实操

Navicat Premium 15 永久破解激活工具及安装教程(亲测可用)

Geek甜甜

数据库 程序员 工具 navicat

【Spring 学习笔记(十二)】Spring AOP 切入点表达式

倔强的牛角

Java spring spring aop Java EE 6月月更

Feature Store Meetup V3回顾|华为商城&第四范式&众安保险特征平台建设实践

星策开源社区

华为商城 OpenMLDB Feature Store MLOps 特征工程

【前端】前后端交互重点Ajaxの介绍及实战

孤寒者

json ajax tornado 6月月更

算法系列之动态规划

坚果

6月月更

如何往 Kafka 发送大消息?

Se7en

flutter系列之:深入理解布局的基础constraints

程序那些事

flutter 程序那些事 6月月更

GTID详解

乌龟哥哥

6月月更

五八同城(58.com)研发效能组织和团队建设之路

laofo

互联网 DevOps 研发效能 持续交付 工程效率

【愚公系列】2022年06月 通用职责分配原则(五)-控制器原则

愚公搬代码

6月月更

SeekTiger的崛起,旗下生态NFT、DAO VC平台将陆续上线

股市老人

测试需要做单元测试吗?

老张

软件测试 单元测试

Java Core 「10」J.U.C 同步工具类-2

Samson

学习笔记 Java core 6月月更

SeekTiger迎多重利好,旗下生态NFT、DAO VC平台将陆续上线

鳄鱼视界

spring4.1.8扩展实战之七:控制bean(BeanPostProcessor接口)

程序员欣宸

Java spring SpringFramework 6月月更

如何构建、部署运行Flink程序

百思不得小赵

flink 部署 6月月更

事故分析的趋势和行为_DevOps & 平台工程_Manuel Pais_InfoQ精选文章