【AICon】探索八个行业创新案例,教你在教育、金融、医疗、法律等领域实践大模型技术! >>> 了解详情
写点什么

事故分析的趋势和行为

  • 2017-12-03
  • 本文字数:1325 字

    阅读完需:约 4 分钟

Eric Siegler 是 PagerDuty 公司 DevOps 的负责人,他在上个月于伦敦举办的 Velocity 大会上发表了一份报告,分析了来自125 个不同组织在六个月的时间内的1000 份事故分析(post-mortems)【译注1】。他分析出的主要的趋势包括:无可非议的事故分析的普遍性;仅有1/100 的事故分析源于“人为错误”;以及对事件生命周期的分析可以提供对事件响应过程中相关弱点的深入见解。

由于信息是经由PagerDuty 的事故分析构建器功能从客户端处匿名收集(并保存) 的,Sigler 挖掘了这些数据,寻找常见的人名,结果发现一半的事故分析中都没有出现人名。Sigler 强调说,另外的一半数据中出现了人名也并不一定意味着存在一种指责文化,因为数据可能会以其他方式被曲解;例如,事故分析报告中提及了一个名为“Bob”的服务器(这种情况下,“Bob”也会被识别成人名,但其实是服务器的名字)。

至于明确提到的“人为的错误”,它作为事故被审查的一种可能的原因,经由Sigler 调查,他发现几乎没有证据可以证明事故分析的原因源于“人为错误”(只有1% 的事故分析与“人为错误”有关)。Sigler 以去年3 月的AWS S3 的故障为例强调了这一点,该事件的事故分析并没有声明人为错误是导致故障的一个原因,但媒体的报道泛泛地将其原因归咎个人

收集到的数据还表明,许多组织花费了大量的精力来详细说明事件的时间线(并且很多事故分析都不包含任何关于其他方面的文本信息)。Sigler 警告说,尽管了解被审查的事故是一项有用的练习,但跟踪常见事件的状态转换(启动、自检、改进、解决)可以得到更好的见解以改善整个响应过程。例如,在启动状态和自检状态之间的不断重复就对我们的监测和仪器的正确性提出了疑问。在启动状态和自检状态之间的不断重复可能表明在组织中的知识共享和职责分配方面存在瓶颈,或者仅仅是因为积累了太多的技术债务导致了系统的失败。

Sigler 的另一发现是,大多数的组织平均每月进行事故分析的次数不足一次。有三分之一的组织会在事故后的 24 小时内进行事故分析,还有三分之一的组织会在事故后的一星期内进行事故分析,剩下的那部分在一周后才会进行分析(这样通常很难能克服选择性遗忘)。

Sigler 还强调说,这只是一个小型的数据集,所以分析出结果可能会偏向于一些已经具有完备事故分析过程的组织,因次它们的运营看起来似乎更为成熟。

最后,Sigler 给观众提供了许多建议。首先,事故分析对于检查过程改进是否有助于消除系统中的错误很有帮助,另外,如果我们反复遇到相同的问题,事故分析也能起到很好的作用。其次,事故分析可以发现组织问题,因此,对事故分析结果的应用不能仅仅局限于技术改进。

想要了解更多关于建立事故分析过程的信息,请参考 PagerDuty 关于事故分析过程以及事故分析模板或者 Etsy 事故分析实践的相关内容。Etsy 同样开源了他们的数据收集和事故分析追踪工具

译注1:post-mortems,事故分析,又称事故复盘。当任何生产系统发生严重停机或类似事故时,所涉及的人员都必须写一份事故分析文档。文档描述事故,包括标题、摘要、影响、时间表、根本原因、什么工作/ 什么没有和行动项目。文档的重点是问题本身,以及如何在未来避免他们,而不是针对人或分摊责任。

查看英文原文: Post-Mortems Trends and Behaviors

2017-12-03 18:001256

评论

发布
暂无评论
发现更多内容

云启资本宣布加入 OpenCloudOS 操作系统社区,将自身在开源领域近十年的经验贡献社区

OpenCloudOS

阿里云“大算力”支持嬴彻自动驾驶仿真提速 20 倍

阿里巴巴云原生

阿里云 容器 云原生 ACK 客户案例

搜狐全员遭诈骗,暴露哪些问题?

Authing

身份云 信息 统一身份认证 mfa

AIRIOT物联网低代码平台如何配置Modbus RTU协议?

AIRIOT

驱动配置

千万奖金的首届昇腾AI创新大赛来了,OpenI启智社区提供开发环境和全部算力

OpenI启智社区

人工智能 昇腾AI大赛

中兴通讯宣布加入OpenCloudOS操作系统社区,为自主操作系统做出重要贡献

OpenCloudOS

中科曙光加入OpenCloudOS操作系统社区,携手共建应用生态体系

OpenCloudOS

虎符Hoo重点布局合规 打造安全稳定交易环境

区块链前沿News

国际化 Hoo 合规

面试题:关于HDFS,你的沉淀是什么?

Joseph295

十二、云原生安全趋势

穿过生命散发芬芳

云原生安全 5月月更

JavaScript获取元素的宽高

空城机

JavaScript 5月月更

LabVIEW操作鼠标滚轮放大/缩小图像

不脱发的程序猿

图像处理 LabVIEW 鼠标滚轮来放大和缩小图片

OpenCloudOS 云原生演进之路

OpenCloudOS

英特尔宣布加入OpenCloudOS操作系统社区

OpenCloudOS

【LeetCode】括号的分数Java题解

Albert

LeetCode 5月月更

flask框架关于静态文件及其模板生成

恒山其若陋兮

5月月更

7 款最棒的 React 移动端 UI 组件库 - 特别针对国内使用场景推荐

蒋川

UI 前端框架 React 移动端 组件库

全国超市区域分布分析-数据分析学习笔记-1

清林情报分析师

数据分析 学习笔记 数据处理 数据可视化 知识图谱

上证数据可视化分析展示-数据分析学习笔记-2

清林情报分析师

数据分析 学习笔记 数据处理 证券 上市公司

AiTalk创始人梁宇淇:镜像连接虚拟与现实的纽带

阿里云弹性计算

vr XR 数字人

寻找智能精灵:出海与创新时代的开发者之需

脑极体

LinkedHashMap 源码分析-访问

zarmnosaj

5月月更

基线监控:基于依赖关系的全链路智能监控报警

字节跳动数据平台

监控 SLA 基线检查

密码学系列之:使用openssl创建私有CA

程序那些事

密码学 程序那些事 5月月更

LabVIEW实现Modbus通信

不脱发的程序猿

LabVIEW Modbus 串口通信 VISA 工业通信

内网穿透的实现原理(附源码)

风斩断晚霞

Java Go 网络编程 Netty 内网穿透

IP归属地火了,IP地址黑灰产浮出水面 要如何预防?

郑州埃文科技

网络安全 IP地址 网络灰黑产

勇往直前,做全能开发者,华为伙伴暨开发者大会2022精彩活动正式解锁!

华为云开发者联盟

云计算 量子计算

多个平台显示IP地址:如何看待互联网实名制

石头IT视角

Java Core「5」自定义注解编程

Samson

学习笔记 5月月更 Java core

LabVIEW使用移位寄存器计算平均值

不脱发的程序猿

LabVIEW 移位寄存器计算平均值 移位寄存器

事故分析的趋势和行为_DevOps & 平台工程_Manuel Pais_InfoQ精选文章