10 月 23 - 25 日,QCon 上海站即将召开,现在大会已开始正式报名,可以享受 8 折优惠 了解详情
写点什么

事故分析的趋势和行为

  • 2017-12-03
  • 本文字数:1325 字

    阅读完需:约 4 分钟

Eric Siegler 是 PagerDuty 公司 DevOps 的负责人,他在上个月于伦敦举办的 Velocity 大会上发表了一份报告,分析了来自125 个不同组织在六个月的时间内的1000 份事故分析(post-mortems)【译注1】。他分析出的主要的趋势包括:无可非议的事故分析的普遍性;仅有1/100 的事故分析源于“人为错误”;以及对事件生命周期的分析可以提供对事件响应过程中相关弱点的深入见解。

由于信息是经由PagerDuty 的事故分析构建器功能从客户端处匿名收集(并保存) 的,Sigler 挖掘了这些数据,寻找常见的人名,结果发现一半的事故分析中都没有出现人名。Sigler 强调说,另外的一半数据中出现了人名也并不一定意味着存在一种指责文化,因为数据可能会以其他方式被曲解;例如,事故分析报告中提及了一个名为“Bob”的服务器(这种情况下,“Bob”也会被识别成人名,但其实是服务器的名字)。

至于明确提到的“人为的错误”,它作为事故被审查的一种可能的原因,经由Sigler 调查,他发现几乎没有证据可以证明事故分析的原因源于“人为错误”(只有1% 的事故分析与“人为错误”有关)。Sigler 以去年3 月的AWS S3 的故障为例强调了这一点,该事件的事故分析并没有声明人为错误是导致故障的一个原因,但媒体的报道泛泛地将其原因归咎个人

收集到的数据还表明,许多组织花费了大量的精力来详细说明事件的时间线(并且很多事故分析都不包含任何关于其他方面的文本信息)。Sigler 警告说,尽管了解被审查的事故是一项有用的练习,但跟踪常见事件的状态转换(启动、自检、改进、解决)可以得到更好的见解以改善整个响应过程。例如,在启动状态和自检状态之间的不断重复就对我们的监测和仪器的正确性提出了疑问。在启动状态和自检状态之间的不断重复可能表明在组织中的知识共享和职责分配方面存在瓶颈,或者仅仅是因为积累了太多的技术债务导致了系统的失败。

Sigler 的另一发现是,大多数的组织平均每月进行事故分析的次数不足一次。有三分之一的组织会在事故后的 24 小时内进行事故分析,还有三分之一的组织会在事故后的一星期内进行事故分析,剩下的那部分在一周后才会进行分析(这样通常很难能克服选择性遗忘)。

Sigler 还强调说,这只是一个小型的数据集,所以分析出结果可能会偏向于一些已经具有完备事故分析过程的组织,因次它们的运营看起来似乎更为成熟。

最后,Sigler 给观众提供了许多建议。首先,事故分析对于检查过程改进是否有助于消除系统中的错误很有帮助,另外,如果我们反复遇到相同的问题,事故分析也能起到很好的作用。其次,事故分析可以发现组织问题,因此,对事故分析结果的应用不能仅仅局限于技术改进。

想要了解更多关于建立事故分析过程的信息,请参考 PagerDuty 关于事故分析过程以及事故分析模板或者 Etsy 事故分析实践的相关内容。Etsy 同样开源了他们的数据收集和事故分析追踪工具

译注1:post-mortems,事故分析,又称事故复盘。当任何生产系统发生严重停机或类似事故时,所涉及的人员都必须写一份事故分析文档。文档描述事故,包括标题、摘要、影响、时间表、根本原因、什么工作/ 什么没有和行动项目。文档的重点是问题本身,以及如何在未来避免他们,而不是针对人或分摊责任。

查看英文原文: Post-Mortems Trends and Behaviors

2017-12-03 18:001744

评论

发布
暂无评论
发现更多内容

阿里云-建站小能手快速体验

凌云Cloud

阿里云 网站建设

Zabbix 监控系统保姆及教程

CTO技术共享

干货|为什么说开源基金会的选择很关键?(上)

Orillusion

开源 WebGL 渲染引擎 webgpu web3d

华为云构建“好用的化工数字化”

IT资讯搬运工

重学网络系列之(TCP)

自然

网络 8月月更

leetcode 242. Valid Anagram 有效的字母异位词(简单)

okokabcd

LeetCode 算法与数据结构

蓝凌“智慧云脑”,助力水务、燃气等集团服务民生

科技怪咖

从工程预算到项目管理,『蓝凌低代码』让房企管理更简单

科技怪咖

规范代码命名,让你的代码阅读起来更愉悦!

岛上码农

flutter 前端 移动端开发 跨平台开发 8月月更

从 Multirepo 到 Monorepo 袋鼠云数栈前端研发效率提升探索之路

袋鼠云数栈

Java集合之map集合

楠羽

#开源

高效率团队为啥都会选择Jenkins?一文带您了解Jenkins

wljslmz

持续集成 jenkins 8月月更

负载均衡算法

源字节1号

程序员 软件开发

【Python编程技巧】简单理解和使用Python中@property

迷彩

@PropertySource 8月月更 Python编程技巧

蓝凌生态OA,重新定义中大型企业数字化办公

科技怪咖

头脑风暴:二叉搜索树的最小绝对差

HelloWorld杰少

算法 LeetCode 8月月更

C/C++size(),sizeof(),length(),strlen()对比分析详解

CtrlX

c c++ 进阶 热门活动 8月月更

重学网络系列之(Ping与网关)

自然

网络 8月月更

重学网络系列之(UDP)

自然

网络 8月月更

解析大型电商网站系统架构分层设计

穿过生命散发芬芳

网站架构 8月月更

ISO文件怎么管?“筷子第一股”双枪科技教你1招!

科技怪咖

每日一R「15」实践课之 kv-server(一)

Samson

学习笔记 8月月更 ​Rust

如何给注册中心锦上添花?

捉虫大师

微服务 架构设计 注册中心 服务发现 8月月更

[极致用户体验] 教你个超牛逼的分割线CSS!

HullQin

CSS JavaScript html 前端 8月月更

Polkadot + DeFi | 透明公平、高效交易的去中心化金融未来可期

One Block Community

区块链 金融创新 defi 波卡生态

Docker 端口映射重大安全漏洞

CTO技术共享

React在实际开发中Variables与Prop的实战运用

恒山其若陋兮

8月月更

「美团 CodeM 资格赛」数码 详解

Five

c++ 算法题 8月月更

Nexus 私服Prometheus+Grafana

CTO技术共享

学习 Go 语言数据结构:实现双链表

宇宙之一粟

数据结构 双向链表 8月月更

Docker下Prometheus和Grafana三部曲之三:自定义监控项开发和配置

程序员欣宸

Grafana Prometheus 8月月更

事故分析的趋势和行为_DevOps & 平台工程_Manuel Pais_InfoQ精选文章