写点什么

疲劳、垃圾邮件、备份缺失,拖垮了 GitLab.com

  • 2017-02-09
  • 本文字数:1529 字

    阅读完需:约 5 分钟

生产环境数据丢失、数小时的宕机,这是 GitLab 给我们带来的不幸而扣人心弦的故事,这个故事告诉我们小事可以变成灾难,比如垃圾邮件、工程师疲劳状态。

整个事件是从 1 月 31 日逐渐开始的,直到一条推特的发布彻底确认了 GitLab.com 有些不对劲了:

我们不小心删除了生产环境数据,可能需要从备份恢复数据。谷歌 Doc 会有行动注解 https://t.co/EVRbHzYlk8
–GitLab.com 状态(@gitlabstatus) 2017 年 2 月 1 日

任务 IT 从业人员都不愿意听到“删除了生产环境数据”这样的话,但是这种情况又容易发生,这就是为什么备份对于任何生产环境服务来说如此重要了。不幸的是,当团队彻夜奋战尝试恢复服务时,坏消息接踵而来。

在一个帖子里面罗列了发生的事情,麻烦开始于恶意的垃圾邮件攻击,即“通过反复的创建片段方式攻击数据库,导致数据库不稳定”,导致了备份服务出现问题。3 小时之后,数据库什么都干不了了,导致 GitLab.com 站点奔溃。

一位工程师工作到深夜,他的目标是解决问题,但是最终跪倒在一个不幸的错误面前,他犯了一个错误,错误地删除了主节点机器上的数据:

2017 年 1 月 31 日晚上 11 点钟(UTC 时间),项目组成员 1 认为 pg_basebackup 不能正常工作的原因可能是由于 PostgreSQL 数据目录已经存在(即便它是空的),所以他决定去移除这个目录。很快他就意识到他的移除命令运行在 db1.cluster.gitlab.com,而不是 db2.cluster.gitlab.com。

2017 年 1 月 31 日晚上 11 点 27 分(UTC 时间),这位员工终止了移除文件夹操作,但是已经太迟了。300GB 的文件仅剩下 4.5GB。

当团队尝试去找到可用的备份文件用于恢复生产环境时,他们发现所有的可选方式都行不通。

  • LVM(逻辑卷管理)快照默认每 24 小时运行一次
  • 标准备份方式也是 24 小时运行一次,而且还没有正常工作
  • 运行在 Azure 上的磁盘快照服务不会包含数据库部分
  • AWS 的 S3 上面的备份是空的

碰巧,工程师在执行删除操作之前的 6 个小时生成了一个 LVM 快照。如果没有这个神奇的操作,我们会发现更多的数据永远找不回来了。

纵观整个事件过程,GitLab 团队保持了完全的透明化,实时发布更新内容到谷歌 Doc,这样整个社区都可以紧跟事件。此外,他们也开放了现场视频,直播工程师恢复数据的工作过程。

大约在数据库宕机 18 个小时之后,GitLab.com 恢复在线:

https://t.co/r11UmmDLDE 应该已经对外正式恢复了。
–GitLab.com 状态(@gitlabstatus) 2017 年 2 月 1 日

社区存在多种评价,包括对团队的支持和批判。一些人发帖给予慰问,并且赞扬 GitLab 的透明度。黑客新闻用户 js2 评价这种错误的感受他很熟悉:“如果你干系统管理员工作时间足够长的话,这种错误你也会犯的,你会在错误的机器上执行破坏性的命令。”另外有一些人就不那么仁慈了

即便GitLab 犯错了,他们的痛苦经历也是对社区内部关于测试备份方案重要性的一个提醒, Stack Overflow 的工程经理 David Haney 说

GitLab 处理方式是正确的,可以作为企业的一个很好的案例和学习经验,而不是让别人感觉到神秘的宕机,以及完全没有对外沟通的处理方式。我打赌,这周会进行很多的灾备措施测试,而且这是大家以往并没有想的。所有这一切都是因为 GitLab 的意外事件带来了的连锁反应。

也有一些人调侃说 2 月 1 日应该设立为备份检查日

GitLab 创立于 2011 年,它是 GitHub 的开源替代版本。它是一个在 GitLab.com 上的托管版本,包含自服务的社区版本和企业版本。只有 GitLab.com 的托管服务收到本次意外事件的影响。

参考英文原文 Fatigue, Spam, and Lack of Backups Take Down GitLab.com


感谢木环对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们。

2017-02-09 18:003053

评论

发布
暂无评论
发现更多内容

“新作者 新入驻 新征程”第一季获奖名单

InfoQ写作社区官方

热门活动

对标阿里P9Java架构师面试题,已助我拿下字节、蚂蚁、滴滴三家Offer

Java架构追梦

Java 阿里巴巴 架构 面试 滴滴

【LeetCode】验证二叉树的前序序列化Java题解

Albert

算法 LeetCode 28天写作 3月日更

知道Python中的字符串是什么吗?

华为云开发者联盟

Python 编程语言 字符串 字符

力扣(LeetCode)刷题,简单题(第27期)

不脱发的程序猿

面试 LeetCode 28天写作 算法面经 3月日更

如何成为一名架构师?

xcbeyond

程序人生 方法论 架构师 成长与思考 3月日更

区块链应用解决方案赋能到农产品溯源上究竟能解决什么问题?

源中瑞-龙先生

《未来世界的幸存者》读书笔记

SilentMacUser

极客时间 互联网 技术学习 阅读 阮一峰

一起来学习LiteOS中断模块的源代码

华为云开发者联盟

代码 华为云 LiteOS 中断 中断控制器

真·“拜师学艺”?2021中科院开源之夏,开源大牛1V1&万元奖金只等你来!

京东科技开发者

开源 开源社区

你的终端从未如此优雅

Kareza

终端工具 3月日更 Hyper

你的终端从未如此高效

Kareza

3月日更 Oh My Zsh

数字孪生技术如何实现复制世界?关键的关键是…

华为云开发者联盟

数据中心 数字孪生 节能 仿真 数据中心网图服务

硬核!一文学完Flink流计算常用算子(Flink算子大全)

五分钟学大数据

大数据 flink 28天写作 3月日更

带你了解VXLAN网络中报文的转发机制

华为云开发者联盟

网络 网关 VXLAN 报文 分布式网关

寻找被遗忘的勇气(十二)

Changing Lin

3月日更

安卓应用程序开发理论!免费Android高级工程师学习资源,附面试题答案

欢喜学安卓

android 程序员 面试 移动开发

技术债是什么、怎么还?你想知道的都在这一篇文章里了!

禅道项目管理

技术 技术债 问题

一步一步教你如何在Centos7中配置Kafka运行时环境

happlyfox

28天写作 3月日更

你以为在做的是微服务?不!你只是做了个比单体还糟糕的分布式单体!

程序猿DD

微服务

细粒度授权在安全领域的重要性

龙归科技

安全 iam 细粒度 ABAC PBAC

安卓系统开发架构!5214页PDF的进阶架构师学习笔记,成功入职腾讯

欢喜学安卓

android 程序员 面试 移动开发

谷歌大脑团队官方推荐,用浏览器实现深度学习的「黑科技」教程来了!

图灵社区

JavaScript 人工智能 机器学习 深度学习 大前端

物联网常用协议:MQTT、CoAP、LwM2M、HTTP、LoRaWAN和NB-IoT

不脱发的程序猿

物联网 通信协议 28天写作 3月日更 物联网常用协议

关于广东欢太科技可不可信?那是你还不了解

Geek_4a453c

企业 欢太 欢太科技

聊聊什么是CommonJs和Es Module及它们的区别

蛙人

大前端 js ES6

2月大事件:度目CM-Mini智能面板机全新发布,飞桨PaddleGAN“复活”李焕英

百度大脑

百度 百度大脑

与前端训练营的日子 -- Week19

SamGo

学习

融云集成之避坑指南-Android推送篇

融云 RongCloud

音视频

植树节,种个二叉树吧?

悟空聊架构

数据结构 算法 二叉树

华云大咖说 | 华云数据与瀚高软件携手共建国产云生态 助力政企用户安全可靠发展

华云数据

疲劳、垃圾邮件、备份缺失,拖垮了GitLab.com_Linux_David Iffland_InfoQ精选文章