写点什么

损失惨重!数据中心失火,360 万个网站下线,Rust 游戏 25 台服务器数据永久丢失

2021 年 3 月 12 日

损失惨重!数据中心失火,360万个网站下线,Rust游戏25台服务器数据永久丢失

数据中心失火,360 万个网站被迫下线,一些企业甚至还没有灾难恢复计划,这是被一锅端了?


欧洲云计算巨头 OVH 位于法国斯特拉斯堡的机房近日发生严重火灾,该区域总共有 4 个数据中心 (Strasbourg Data Center),发生起火的 SBG2 数据中心被完全烧毁,另有一个数据中心 SBG1 的建筑物部分受损。出于安全起见,OVH 位于斯特拉斯堡的全部数据中心暂时关闭了服务。



OVH 公司目前在欧洲、北美及亚洲拥有 27 处数据中心,除 AWS、微软 Azure 以及 Google Cloud 之外,OVH 堪称全球体量最大的 Web 托管服务商之一,甚至被不少人视为欧洲托管服务业的希望。毕竟与其把数据交给美国人,还不如由本地运营商打理。



火灾之前的数据中心大楼


这场大火彻底摧毁了五层高、占地 500 平方米的 SBG2 数据中心,并导致相邻 SBG1 服务器发生损坏。但消防人员及时赶到,保护 SBG3 与 SBG4 免遭冲击。OVH 公司目前在欧洲运营有 15 处数据中心,其中有 4 处位于斯特拉斯堡园区。园区内另有 1 处新数据中心在建。


在消防员们成功平息火势之后,OVH 立即介入并对斯特拉斯堡园区的数据中心设施进行盘点。该公司发现,SBG2 的某一房间在当天 00:47 发生大火,主体建筑在 04:09 被完全摧毁。位于莱茵河毗杜港莱茵工业区的 SBG1 数据中心同样受到影响。目前,全部 4 处数据中心均已离线。


Klaba 在最新发布的推文中提到,“SBG1 已经遭到部分破坏。”他还建议客户立即启动灾难应对计划,并补充称“整个站点均已被隔离,并影响到 SBG1 至 SBG4 承载的所有服务。”




OVHcloud 在服务状态页(截至本文发稿时)表达了深切歉意,并恳请客户不要“申请重置”。作为三大云巨头(AWS、微软 Azure、Google Cloud)之外欧洲最大的网络托管服务商,OVH 公司董事长 Klaba 表示恢复计划将“为 SBG3 数据中心重建 2 万伏供电设备”;“为 SBG1/SBG4 重建 240 伏供电设备”;验证网络机房内的路由器 / 交换机;并在各处数据中心内兴建额外的冗余网络机房。他还在另一条推文中提到,“SBG1 中的网络机房并未受到影响。”


引发火灾的原因尚不清楚,但当地报纸称 115 位消防员投入 6 个小时才将其扑灭。经过长达 6 个小时的持续燃烧,SBG2 内的数据恐怕已经彻底丢失。


“不!我没有任何灾难恢复计划!”


这场大火对欧洲范围内的众多网站造成严重影响。据 Netcraft 称,目前跨 464000 个域的多达 360 万个网站皆已下线。


受到此次大火影响的客户包括欧洲航天局的数据与信息访问服务 ONDA 项目,此项目负责为用户托管地理空间数据并在云端构建应用程序。ONDA 项目负责方为 Serco 意大利分部,OVH 则参与提供云基础设施,将来自哥白尼地球观测项目的 10 PB 非预结构化数据通过公有云交付至开发者手中。项目管理方表示,所有服务“在……今天上午斯特拉斯堡 OVH Cloud 基础设施发生重大火灾之后,均被暂时禁用。”


Rust 旗下的游戏工作室 Facepunch Studios 证实,有 25 台服务器被烧毁,他们的数据已在这场大火中全部丢失。即使数据中心重新上线后,也无法恢复任何数据。



其他客户还包括法国政府,其 data.gouv.Fr 网站之前被迫下线,但目前已经恢复运行。另外还有加密货币交易所 Deribit,以及负责跟踪 DDoS 僵尸网络与其他网络滥用问题的信息安全威胁情报厂商 Bad Packets。Bad Packets 公司首席研究官 Troy Mursch 在之前的推文中提到,“可能会有部分数据丢失”,但其随后在采访中澄清称这里指的并不是该公司自己的数据。


无论如何,这场大火还是跟信息安全行业搭上了关系。卡巴斯基研究总监兼全球分析团队负责人 Costin Raiu 今天早上宣布,此次火灾还烧掉了不少防止发布恶意软件的服务器。“我们在 OVH 当中已经发现 140 台被 APT 及其他网络犯罪集团利用的已知 C2 服务器,其中约 64% 目前仍然在线。受到影响的 36% 服务器与多个 APT 团伙有关,包括:Charming Kitten、APT39、Bahamut 以及 OceanLotus。”


在一份采访声明中,Raiu 解释道:“根据我们的跟踪数据,OVH 在全部托管有恶意命令与控制基础设施的互联网服务供应商中排名第九。但总体而言,OVH 托管的 APT 与网络犯罪集团 C2 设备在总量中的占比不到 2%,远远低于 CHOOPA 等其他托管服务商。”


他还提到,“我认为这次意外事件对恶意团伙的影响很小;更重要的是,大部分复杂恶意软件都配置有多台 C2,用以缓解入侵及其他风险。很高兴看到此次火灾没有造成人员伤亡,也希望 OVH 及其客户能够从灾难当中尽快恢复。”


受到火灾影响的其他 OVH 客户还包括欧洲人民大学、斯特拉斯堡机场、瑟堡市政府、标致 - 索绍工厂委员会、浏览啤酒厂、克莱蒙费朗橄榄球俱乐部、以及西班牙职业足球俱乐部维拉里尔。市场营销平台 Paper.li 同样受到影响,并在用户通告中表示“我们服务供应商的数据中心出现重大问题,导致服务中断”,并决定“以承担部分后果的方式……支持这家托管服务商。”


专门销售苹果配件的供应商 CoverStyle 以及免费国际象棋平台 Lichess.org 网站也受到了影响,但后者明显灾备措施更到位,短短 24 小时之后即重新上线。此外,加密货币交易所 Deribit、电信公司 AFR-IX、加密货币实用程序 VeraCrypt(包括其 git 与站点)都受到影响。为了解决问题,VeraCrypt 决定将用户引导至 SourceForge 与 GitHub,“在服务中断期间继续下载及访问源代码。”绘图板平台 pr0gramm 则立刻将火灾事件发布给访问用户,并承诺最后一轮备份已经于 2 小时前完成。


但也有人没那么走运:


“不!!!我靠!!!我就是个普通客户,没有任何灾难恢复计划……我的服务器在机架 70C09 上,它现在还好吗?”


不同寻常的火灾


这场火灾强烈地提醒着我们,云服务与所有技术一样,有利也有弊。


云服务最大的优势在于,让人们不必担心硬件问题,具有非常好的可扩展性和灵活性:它可以对需求变化快速地做出反应,并且用户可以按需付费,从任何地方进行访问。但是,即使在云中,用户的数据也始终位于某个地方。这个地方仍然需要安全性、数据保护、备份和灾难恢复。


让很多人疑惑的是,作为一家有名的云服务提供商,技术应该很成熟,也应该有软件对此类事件进行预警,并自动启动灭火系统。但这些系统都没有起到作用,消防员到来后根本就压制不住熊熊的火势。


从历史看,这次火灾也许跟 OVH 公司的电网建设有关。三年前 OVH 公司曾经启动一项“400 万至 500 万欧元的投资计划”,希望杜绝 2017 年 11 月 SBG1、SBG2 与 SBG4 三处数据中心因重大停电事故而导致离线 3.5 小时这类事件的再次发生。Klaba 本人在评论 2017 年断电事件时曾表示,部分原因是“SBG 直接接入当地电网系统,但当地电网在建设之初并没有考虑到大规模基础设施带来的用电负载。”


“SBG2 的电网建立在 SBG1 的电网之上,而非两处数据中心彼此独立。”在被问及此次升级的更多细节时,OVH 方面表示计划“拆除部分货运集装箱(用于放置设备)”以及主体电气工程。


Gartner 公司高级分析师 Tiny Haynes 在谈到这场大火时评论道,“此次火灾不同寻常。我能想到的上一次同类事件发生于 2012 年 7 月,当时毁于大火的是卡尔加里的 Shaw 通信数据中心,一场大火摧毁了整座数据中心,部署于其中的火情监测与抵制系统并没能发挥应有的作用。在没有得到官方信息的情况下,我猜测问题很可能源自 UPS 故障。”


“这是我在职业生涯中亲眼见证的又一次数据中心燃烧事件,好在当时那处设施还没有全面运行。以模块化或者园区形式建设数据中心,就是会带来这样的风险。”


“在初步设计数据中心时,往往设想不到园区的总体电力与制冷能力需求。随着园区规模的发展,对电力及制冷能力的需求也会越来越大。我们已经在伦敦港区的 Harbour Exchange 遇到过类似的情况。对于这类最初设计并非作为数据中心的建筑,总会留下各种各样的疑难杂症。”


在谈到客户面对此类事件该如何保护自己时,Haynes 认为“最重要的是,企业必须在保证数据中心基础设施符合 TIA 942 Iter II 标准的审计之外,还同时具备完善且明确记录在案的变更管理、事件响应以及风险管理方法。”


OVH 公司创始人兼董事长 Octave Klaba 也于昨天简要介绍了恢复计划,表示各处数据中心对应的电力基础设施同样受到影响,预计至少需要七天才能重新运转。Klaba 提到,该公司拥有“随时可以交付给所有受影响客户的免费”新服务器、pcc 与 pci,同时计划“在未来三到四周之内增加 10000 台服务器。”


四天之前,OVH 公司宣布有意竞购法国流媒体初创企业 Shadow(也称 Blade)。本周一,这家云服务商还谈到上市计划。一位发言人在采访中表示,OVH“已经开始在巴黎筹划上市工作。”


火灾发生后,竞争对手 Equinix 给予了出色的回应:



参考链接:


https://www.theregister.com/2021/03/10/ovh/


https://www.datacenterdynamics.com/en/news/ovh-fire-destroys-rust-game-data-takes-other-sites-offline/

2021 年 3 月 12 日 15:315851

评论

发布
暂无评论
发现更多内容

《TED TALKS演讲的力量》阅读笔记

Jesse Xing

读书笔记 演讲 TED

从接口异常说说线上问题排查流程

QiyihaoLabs

线上排障 指标监控 链路监控 日志监控 排障流程

jdk 源码系列之ReentrantLock

sinsy

源码 jdk ReentrantLock 公平锁 非公平锁

终于啃完了Java核心原理+框架“面试圣经”成功五面上岸美团

小Q

Java 学习 编程 架构 面试

Android网络性能监控方案

应用研发平台EMAS

android 性能 监控 移动开发 应用

接口测试的时候如何生成随机数据进行测试

测试人生路

接口测试

CDN是什么?

德胜网络-阳

数字货币OTC交易所开发,交易所搭建方案

13530558032

从智慧计算的点、线、面,读懂浪潮AI的进化轨迹

脑极体

USDT承兑支付平台技术开发,承兑商币支付交易平台搭建

13530558032

《精进:如何成为一个很厉害的人》阅读心得

Jesse Xing

读书笔记 个人成长 精进

面试前不陪女朋友也要看完这套spring源码面试题(附答案)

小Q

Java 学习 编程 架构 面试

《乌合之众——群体心理研究》读书笔记

Jesse Xing

读书笔记 心理学 乌合之众 群体心理学

搭建一套ASP.NET Core+Nacos+Spring Cloud Gateway项目

yi念之间

如何稳扎稳打推进数字货币进程

CECBC区块链专委会

数字货币

金融科技的未来

CECBC区块链专委会

金融

做个别人家的网页

MySQL从删库到跑路

html/css 网页设计

算法有多重要,看字节腾讯等公司面试多重视就行了

小Q

Java 学习 架构 面试 算法

魏际刚:精准谋划我国供应链发展新方位

CECBC区块链专委会

供应链 物流

一款区块链钱包开发需要多少钱?数字资产钱包开发搭建

13530558032

害怕重构?都怪我太晚和你介绍该如何重构,现在我来了

小Q

Java 学习 程序员 面试 重构

神经网络之dropout总述

Dreamer

学习

JMeter100个线程竟然只模拟出1个并发

dongfanger

软件测试 Jmeter 性能测试 压力测试 测试工具

爆料!前华为微服务专家纯手打500页落地架构实战笔记,已开源

996小迁

架构 面试 分布式 微服务 程序人生

初级工程师职场生存要点

javaadu

程序员 职场成长 开发日志

不会这些mysql得面试题,那可能说明你要回炉了

小Q

Java MySQL 数据库 学习 面试

架构师训练营 - 第七周 - 作业一

行者

一不小心画了 24 张图剖析计网应用层协议!

cxuan

计算机网络 计算机 协议

从一场“众盟科技云滇之播”,我们发现了美食直播的商业与公益价值

脑极体

18张图,揭开阿里巴巴开发手册强制使用SLF4J作为门面担当的秘密

沉默王二

Java slf4j 日志系统

音像协呼吁保护音乐版权:短视频平台成为侵权重灾区

石头IT视角

4月17日 HarmonyOS 开发者日·上海站

4月17日 HarmonyOS 开发者日·上海站

损失惨重!数据中心失火,360万个网站下线,Rust游戏25台服务器数据永久丢失-InfoQ