50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

一块电池,烧瘫韩国:数据中心失火 22 小时,647 套系统因缺失“双活”集体宕机

  • 2025-10-13
    北京
  • 本文字数:3124 字

    阅读完需:约 10 分钟

大小:1.44M时长:08:22
一块电池,烧瘫韩国:数据中心失火 22 小时,647 套系统因缺失“双活”集体宕机

韩国遭遇史上最严重的数字基础设施事故。位于大田的国家信息资源院数据中心(National Information Resources Service data center)在 UPS 电池迁移作业中突发火灾,火势持续 22 小时,造成 647 套关键系统下线,约占全国数字化服务体系的 40%。其中 96 套系统确认直接受损,全面恢复预计需要数周时间。

 

一场火灾,烧穿“外强中干”的基础设施

 

火灾发生在 9 月 26 日晚 8 时 15 分,当时这座中心正承载着韩国最关键的 IT 系统。据外媒报道,相关部门早已意识到将锂电池存放在服务器机房存在风险,因此事发时正在进行电池转移作业,由 13 名外部承包商负责将不间断电源(UPS)锂电池搬入地下室。约 40 分钟后,其中一块电池突然冒出火花,引发大火。

 

火势迅速蔓延,机房温度飙升至 160 摄氏度,维持系统运行的温湿度控制设备随即失效。为避免火势波及更多未受灾的服务器,管理方决定提前关闭所有剩余设备。

 

27 日凌晨 3 点 20 分左右,消防员动用云梯车破开外窗和内隔墙排烟。虽然在早上 6 点 30 分宣布火势得到控制,但仅两小时后,火苗再次复燃。由于数百块锂电池层层堆叠,且与周围服务器仅约 0.6 米距离,火势不断蔓延。理论上,灭火需要大量喷水或将电池完全浸入水中冷却,但考虑到可能损坏存放关键信息的服务器,消防员只能谨慎地使用少量水或二氧化碳灭火系统。

 

经过反复扑救,大火最终在 27 日下午 6 点左右被彻底扑灭,距离起火已过去 22 小时。事故共造成 384 组锂电池被完全摧毁,周边 740 台计算设备受损。

 

约有 73 名消防员和 70 辆消防车参与救援,据报道,有一人受伤,为面部和手臂一级烧伤。

 


锂电池被浸泡在水箱中(图片来源:韩联社)

 

有观点认为,电池老化可能是火灾诱因。涉事电池由韩国 LG Energy Solution 公司销售和维护,于 2014 年 8 月安装于该机房,已使用十多年,保修期已于去年到期。LG 在去年 6 月的例行检查中建议官方更换它们。

 

也有观点认为,电池迁移过程中存在操作失误。UPS 在停电期间为设备提供直流电(DC),而非家用交流电(AC)。若在通电状态下突然断开电缆,会引发电压尖峰,进而可能导致火灾。据推测,事故可能是外部承包商工人或兼职人员在未正确关闭电源的情况下拆除电缆所致。

 

除了电池因素,机房布局同样遭到批评。涉事机房内,电池与承载关键信息的服务器之间的距离明显不足,低于美国国家消防协会(NFPA)建议的 90 厘米。NFPA 还建议在电池与服务器之间安装金属隔板等不燃性屏障,以阻隔热量传递。

 

没有“双活”?!

 

NIRS 运营着三个地理分布的站点,共容纳约 1600 个政府系统。然而,超过 647 个系统(占三分之一以上)集中在大田的设施。

 

火灾发生后,由于温湿度控制系统失效,机房面临服务器过热的风险。为防止损害进一步扩大,管理方决定提前关停全部 647 套系统。这一规模几乎占到全国数字政务系统的 40%,且高度集中在一处设施中。

 

按照设计,G-Cloud 应该在不同地域部署“双活”云环境,以便在灾难发生时实现无缝接管。然而现实中,仅在大田、光州和大邱三地布置了少量存储和备份功能,规模十分有限。灾备体系“只做了一半”,这是火灾引发系统大面积瘫痪的根本原因之一。

 

此次网络故障导致韩国全国范围内的重要服务瘫痪。移动身份识别系统崩溃,导致仅依赖数字身份证的机场旅客滞留。邮政银行业务全面瘫痪,银行卡支付和汇款业务中断。据韩联社报道,国家法律数据库瘫痪,政府电子邮件网络瘫痪。由于 119 救援系统失去定位功能,紧急服务面临严重中断。周六早上,市民收到紧急警报,警告称服务将大面积中断,并指示他们前往实体办公室处理紧急需求。

 

此次事故的危机等级被提升至“严重”级别,这是该国首次因 IT 灾难启动最高级别的应急机制。

 


首尔一栋政府大楼张贴告示:手机门禁卡无法使用。

 

截至周一中午,647 套系统中仅有 62 套恢复,恢复率不足一成(9.6%)。预计全面恢复至少还需数周时间。后续检查结果显示,在此次被关停的系统中,有 96 套已确认因火灾直接被毁。


其中,一块关键硬盘被毁,韩国政府可能永久丢失了 858TB 的信息。据报道,该硬盘是火灾中被彻底摧毁的 96 个系统之一,并且没有备份。

 

此次事件无疑会在社交媒体上引发无数帖子,质疑韩国为何如此依赖单一数据中心。

 


他们怎么可能不给如此关键的系统做异地备份?我曾经共事过的一位 CTO 要求至少有一个异地备份放在不同的(地理)构造板块上,这样地震就不可能把两个数据中心同时毁掉。

 

还有网友指出,这次崩溃早有迹象。大田中心建于 2005 年,已有 20 年历史。因预算不足,云灾备和设施搬迁计划一再推迟。

 


《The Register》则认为还存在一线希望,因为 NIRS 也是 Virtzilla 旗舰私有云套件 VMware Cloud Foundation 的用户,因此该机构或许能够迅速恢复虚拟基础设施。

 

锂电池正成为数据中心的大隐患?

 

韩国此次火灾不仅揭示了电池老化、机房设计缺陷和灾备不足等直接问题,也让整个行业重新审视锂电池在数据中心的安全挑战。随着锂电池系统的普及,安全边界必须进一步收紧。专家指出,电池模组应与服务器空间隔离,部署早期热量与气体探测系统,采用针对锂电池失效模式设计的灭火装置,并引入更严格的操作规范。

 

如今,锂电池在数据中心电池市场的占比预计已达到 38.5%,而在 2020 年时仅为 15%。因电池起火造成的意外事故也并不鲜见。2022 年 10 月,韩国 SK 公司 C&C 板桥数据中心发生火灾,大火在大约 8 小时后被扑灭。经调查发现,安装在地下三层电气设备室的 5 个电池机架全部烧毁,电池和机架附近似乎因电气因素失火。

 

本次火灾导致了约 3.2 万个服务器瘫痪,数千万用户服务受到影响。数据中心失火后,包括 Kakao Talk 在内的 Kakao 系列服务中断了一天左右才逐步恢复。火灾之后,韩国科技部长官李宗昊就数据中心失火导致网络平台瘫痪一事致歉,几天之后,Kakao 联席 CEO 也因此引咎辞职。

 

法国云巨头 OVH 也曾因 UPS(不间断电源)起火导致一处数据中心下线。2021 年 3 月,这家法国运营商的 SBG2 数据中心发生了波及整栋大楼的起火事故,导致该区域的 4 个数据中心,一个被完全烧毁,另有一个部分受损。

 


起火后,瘫痪的法国政府、企业与公共事业网站达到约 360 万个,一些游戏开发商在欧洲的业务也受到影响,部分位于该数据中心的服务器被烧毁,其中游戏《Rust》表示,25 台欧洲服务器完全损毁,没有备份,数据无法被修复。

 

事后,超过 130 名客户加入了集体诉讼,指责 OVHcloud 未尽充分义务,且没有为受损失的企业提供足够的赔偿。在火灾发生一年后,Bas-Rhin 消防局发布了一份调查报告,强烈批评这家法国运营商的设施。由事故调查报告可知,这座数据中心存在相当多的消防隐患,包括:采用了标称耐火仅一小时的木质天花板、未配备自动灭火装置、也没有通用电气切断开关。不过更让消防人员遗憾的是,这处设施还有一种自然冷却设计,这也创造了可增加火势的“烟囱效应”。

 

去年 9 月,阿里云因新加坡可用区 C 数据中心发生火灾,导致主要科技公司服务中断,火灾原因已确定为锂电池爆炸。据外媒报道,10 日早上约 8 点发生的机房火灾,截至 11 日下午 8 点,已持续 36 小时,仍未完全扑灭。 报道称,此次事件不仅影响了阿里云的正常服务,还对托管在该机房的其他科技公司的服务造成了“严重中断”。

 

参考链接:

https://www.techmeme.com/250928/p2#a250928p2

https://www.koreaherald.com/article/10585032

https://www.networkworld.com/article/4065542/south-koreas-data-center-fire-triggers-global-scrutiny-of-lithium-ion-batteries-and-dr-architecture.html

https://www.datacenterdynamics.com/en/news/south-korea-data-center-fire-government-services-could-be-offline-for-a-month/

https://www.infoq.cn/article/weafs0wjfgbo9vnzzbdd

2025-10-13 10:171

评论

发布
暂无评论

mac电脑好玩的游戏:帕斯卡契约:终极版 游戏模式,体验大升级

Rose

游戏 mac电脑 帕斯卡契约:终极版

Microsoft Outlook将邮件、日历和联系人汇集一处,让你轻松管理一切

Rose

Office 邮件客户端 Microsoft Outlook

2023 年已知被利用最多的十大CWE漏洞排名

软件开发 华为云

【踩坑指南】线程池使用不当的五个坑

越长大越悲伤

Java 线程池 踩坑指南

GraphicConverter 12 mac图片浏览器:编辑、转换和增强图像

Rose

千万级数据深分页查询SQL性能优化实践-京东零售技术团队

京东零售技术

Java MySQL 后端

中文版3d lut creator pro调色软件下载 兼容M1

Rose

Mac软件 3d lut creator pro 调色

4份报告简读Java生态

4ye

JVM, Java’

容器是怎么一步一步成为云原生的基石技术的

申屠鹏会

云计算 容器 云原生

FTP(文件传输协议)客户端 Transmit 5 中文for Mac v5.10.4

Rose

ftp Mac软件 ftp传输 Transmit 5

SublimeText中文破解版 简单易用的代码编辑器

Rose

代码编辑器 SublimeText

高效率软件开发工具,提速开发,真的很赞!

互联网工科生

软件开发 低代码 JNPF

探索大模型训练与多模态数据处理

百度开发者中心

人工智能 图像 大模型训练

KubeEdge v1.16.0 版本发布!10项新增特性

华为云开发者联盟

k8s 开发 华为云 kubeedge 华为云开发者联盟

文心一言 VS 讯飞星火 VS chatgpt (194)-- 算法导论14.3 2题

福大大架构师每日一题

福大大架构师每日一题

口袋瑜伽 Pocket Yoga for mac 专业瑜伽课程 打造完美身材

Rose

瑜伽 Mac软件 瑜伽教学 Pocket Yoga

【YAML语法规范指南】从入门到精通,揭秘神秘语法,引领配置文件解析指南(基础结构篇)

码界西柚

配置 yaml 开发指南 yaml文件 2024年第三十二篇文章

如何使用低代码+定制,打造一个个性化的社交媒体平台?

天津汇柏科技有限公司

低代码 定制软件开发 软件开发定制

macs fan control pro破解版序列号 mac电脑风扇控制 v1.5.17中文版

Rose

苹果电脑 风扇转速控制 Macs Fan Control Pro

安卓动态链接库文件体积优化探索实践

京东科技开发者

Seal 新春大挑战等你来参与!

SEAL安全

AI DevOps Walrus

极狐 GitLab 和 Xcode Cloud 集成,实现 iOS 的自动打包

极狐GitLab

一个线程,从“生”到“死”经历的过程

华为云开发者联盟

Java 线程 开发 华为云 华为云开发者联盟

Minitab Express:对数据进行整理、可视化、建模和预测

Rose

数据分析 数据统计 Minitab Express

Bookends for Mac(文献书籍管理工具)v14.2.9注册激活版

Rose

wrk压测

WiFi 7/QCN9274: Connecting the super network of the future

wallysSK

一块电池,烧瘫韩国:数据中心失火 22 小时,647 套系统因缺失“双活”集体宕机_云原生_Tina_InfoQ精选文章