写点什么

疲劳、垃圾邮件、备份缺失,拖垮了 GitLab.com

  • 2017-02-09
  • 本文字数:1529 字

    阅读完需:约 5 分钟

生产环境数据丢失、数小时的宕机,这是 GitLab 给我们带来的不幸而扣人心弦的故事,这个故事告诉我们小事可以变成灾难,比如垃圾邮件、工程师疲劳状态。

整个事件是从 1 月 31 日逐渐开始的,直到一条推特的发布彻底确认了 GitLab.com 有些不对劲了:

我们不小心删除了生产环境数据,可能需要从备份恢复数据。谷歌 Doc 会有行动注解 https://t.co/EVRbHzYlk8
–GitLab.com 状态(@gitlabstatus) 2017 年 2 月 1 日

任务 IT 从业人员都不愿意听到“删除了生产环境数据”这样的话,但是这种情况又容易发生,这就是为什么备份对于任何生产环境服务来说如此重要了。不幸的是,当团队彻夜奋战尝试恢复服务时,坏消息接踵而来。

在一个帖子里面罗列了发生的事情,麻烦开始于恶意的垃圾邮件攻击,即“通过反复的创建片段方式攻击数据库,导致数据库不稳定”,导致了备份服务出现问题。3 小时之后,数据库什么都干不了了,导致 GitLab.com 站点奔溃。

一位工程师工作到深夜,他的目标是解决问题,但是最终跪倒在一个不幸的错误面前,他犯了一个错误,错误地删除了主节点机器上的数据:

2017 年 1 月 31 日晚上 11 点钟(UTC 时间),项目组成员 1 认为 pg_basebackup 不能正常工作的原因可能是由于 PostgreSQL 数据目录已经存在(即便它是空的),所以他决定去移除这个目录。很快他就意识到他的移除命令运行在 db1.cluster.gitlab.com,而不是 db2.cluster.gitlab.com。

2017 年 1 月 31 日晚上 11 点 27 分(UTC 时间),这位员工终止了移除文件夹操作,但是已经太迟了。300GB 的文件仅剩下 4.5GB。

当团队尝试去找到可用的备份文件用于恢复生产环境时,他们发现所有的可选方式都行不通。

  • LVM(逻辑卷管理)快照默认每 24 小时运行一次
  • 标准备份方式也是 24 小时运行一次,而且还没有正常工作
  • 运行在 Azure 上的磁盘快照服务不会包含数据库部分
  • AWS 的 S3 上面的备份是空的

碰巧,工程师在执行删除操作之前的 6 个小时生成了一个 LVM 快照。如果没有这个神奇的操作,我们会发现更多的数据永远找不回来了。

纵观整个事件过程,GitLab 团队保持了完全的透明化,实时发布更新内容到谷歌 Doc,这样整个社区都可以紧跟事件。此外,他们也开放了现场视频,直播工程师恢复数据的工作过程。

大约在数据库宕机 18 个小时之后,GitLab.com 恢复在线:

https://t.co/r11UmmDLDE 应该已经对外正式恢复了。
–GitLab.com 状态(@gitlabstatus) 2017 年 2 月 1 日

社区存在多种评价,包括对团队的支持和批判。一些人发帖给予慰问,并且赞扬 GitLab 的透明度。黑客新闻用户 js2 评价这种错误的感受他很熟悉:“如果你干系统管理员工作时间足够长的话,这种错误你也会犯的,你会在错误的机器上执行破坏性的命令。”另外有一些人就不那么仁慈了

即便GitLab 犯错了,他们的痛苦经历也是对社区内部关于测试备份方案重要性的一个提醒, Stack Overflow 的工程经理 David Haney 说

GitLab 处理方式是正确的,可以作为企业的一个很好的案例和学习经验,而不是让别人感觉到神秘的宕机,以及完全没有对外沟通的处理方式。我打赌,这周会进行很多的灾备措施测试,而且这是大家以往并没有想的。所有这一切都是因为 GitLab 的意外事件带来了的连锁反应。

也有一些人调侃说 2 月 1 日应该设立为备份检查日

GitLab 创立于 2011 年,它是 GitHub 的开源替代版本。它是一个在 GitLab.com 上的托管版本,包含自服务的社区版本和企业版本。只有 GitLab.com 的托管服务收到本次意外事件的影响。

参考英文原文 Fatigue, Spam, and Lack of Backups Take Down GitLab.com


感谢木环对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017-02-09 18:002537

评论

发布
暂无评论
发现更多内容

Linux下QT配合OpenCV完成图像处理(实现基本的人脸检测)

DS小龙哥

7月月更

jQuery(三)

Jason199

jquery js 7月月更

list的使用方式

小肉球

qt 7月月更

语音聊天源码——语音聊天源码开发设计搭建

开源直播系统源码

软件开发 直播系统源码 开源源码 语音聊天源码 语音社交软件

深入Ceph原理包含核心算法Crush说明和通信机制原理(五)

Lansonli

云原生 Ceph 7月月更

浅入浅出mybatis(四)

ES_her0

7月月更

Istio Mesh模型

阿泽🧸

7月月更 Istio Mesh

阿里云架构师马颂:云上高性能计算助力基因测序

阿里云弹性计算

高性能计算 EHPC 基因测序

从 0 到 1 开展软件测试

声网

测试 生态专栏

镍氢电池的特性和使用方法(FDK镍氢电池充电机制)

不脱发的程序猿

嵌入式 汽车电子 镍氢电池 镍氢电池充电逻辑 FDK镍氢电池

iOS中的Block(初步认识)

NewBoy

ios 前端 移动端 iOS 知识体系 7月月更

【古月21讲】ROS入门系列(2)——发布者Publisher、订阅者Subscriber的编程实现+自定义话题消息编程实现

秃头小苏

ROS 7月月更

1800字带您了解视频会议、视频聊天底层技术:WebRTC 网页实时通信

wljslmz

WebRTC 音视频技术 视频技术 7月月更

使用 Gorilla Mux 和 CockroachDB 编写可维护 RESTful API

宇宙之一粟

Go 语言 CockroachDB 7月月更

从0开始的 TypeScriptの十四:内置工具类型

空城机

typescript 7月月更

谈谈JavaScript的作用域及作用域链

南极一块修炼千年的大冰块

7月月更

【答疑解惑】 裁员浪潮中,N+1 到底指什么?

面试官问

互联网裁员 N+1

Java方法重载及递归

未见花闻

7月月更

zookeeper-zookeeper常用命令

zarmnosaj

7月月更

即时通信的应用小实例——扫码签到小系统

为自己带盐

即时通信 7月月更

SVN使用:更新代码不成功导致SVN被锁定的解决方法

三掌柜

7月月更

ArkUI常见问题汇总【系列3】

坚果

HarmonyOS Open Harmony 7月月更

【Debug】VS EXE运行“应用程序无法正常启动(0xc000007b)”

柒号华仔

debug 7月月更

如何控制css鼠标样式以及扩大鼠标点击区域

南极一块修炼千年的大冰块

7月月更

LaTex笔记(Windowns)

乌龟哥哥

7月月更

Docker 安装 MySQL8.0

宁在春

MySQL Docker 镜像 7月月更

MFC|自绘CStatic刷新不及时问题

中国好公民st

c++ 7月月更

mysql进阶(三)游标简易知识点汇总

No Silver Bullet

MySQL 数据库 游标 7月月更

spark调优(六):大家好才是真的好——广播变量

怀瑾握瑜的嘉与嘉

spark 7月月更

玩转Liunx系统,看这篇文章就够了(二)

Java学术趴

7月月更

查找——二叉排序树(一)

乔乔

7月月更

疲劳、垃圾邮件、备份缺失,拖垮了GitLab.com_Linux_David Iffland_InfoQ精选文章