硬核干货——《中小企业 AI 实战指南》免费下载! 了解详情
写点什么

B 站崩了:事情不大,影响不小

  • 2021-07-14
  • 本文字数:1692 字

    阅读完需:约 6 分钟

B站崩了:事情不大,影响不小

7 月 13 日晚间,B 站因无法访问登上热搜榜。


昨天深夜,B 站出现访问故障,无法打开,页面提示加载失败。除了网站和移动端显示加载错误之外,B 站出品的轻视频、剪辑软件必剪等均无法打开,显示页面加载出错。



一个网站的短暂崩溃,居然引起这么大的声响?


公司 2020 年第三季度财报显示,去年 8 月,B 站的月活用户突破 2 亿。最新数据则显示,B 站月活用户为 2.23 亿,其中 35 岁及以下的月活用户比重超过 86%。


B 站故障之后,消息迅速扩散,“B 站崩了”冲上了各种热搜榜。微博热搜第一,知乎的提问下截至目前为止,总共有 12727 个回复。连朋友圈里,都被 B 站技术总监分享过的“高可用架构实践”演讲刷屏。



故障持续了一个多小时,同时崩溃的还有老牌二次元网站 AcFun(A 站)以及豆瓣、晋江,但豆瓣、A 站等很快就得以恢复了。


一个网站的“崩溃”,让无数习惯了互联网生活的人睡不着觉,也有不少网友一起帮忙分析到底是互联网的哪个环节出了问题,甚至还因此惊动了消防局。


对于网传“B 站崩了是因为有火情发生”,上海消防辟谣道:“经了解,位于上海市政立路 485 号国正中心内的哔哩哔哩弹幕网 B 站(总部)未出现火情,未接到相关报警。具体情况以站方公布为准。”


今年 3 月份,曾发生过数据中心失火造成 360 万网站下线的事故,因此有人猜测是云海数据服务中心发生了火情,消防也对此表示了极大关注。



什么原因会导致网站宕机?


至 14 日凌晨 2 点 15 分,B 站所有功能均恢复正常。B 站官方 7 月 14 日凌晨发布消息称,昨(7 月 13 日)晚,B 站的部分服务器机房发生故障,造成无法访问。技术团队随即进行了问题排查和修复,现在服务已经陆续恢复正常。


但是对于具体宕机原因,B 站并未作说明。InfoQ 联系了 B 站相关技术人员询问具体情况,截止发稿前仍然没有得到答复。


对于网站宕机常见原因,开源基础软件公司 Zilliz 的质量保障团队负责人乔燕良认为,主要可分为软件服务引起的故障和硬件服务引起的故障。


软件服务故障一般可理解为代码逻辑缺陷,常见的是新增或更新某个功能而引入缺陷导致整个服务中断;硬件服务故障一般是由于某些服务设备的损坏造成服务中断,比如光纤被挖断了。


互联网服务中链路的每个环节都有可能导致问题发生,据另一位数据库专家分析,因为这次 B 站主站都挂了,应该和数据库没有关系;宕机发生的时候,通过技术分析,可以看出 CDN 查不到相关机房的数据。由此推测,B 站这次应该属于机房级别的故障,需要增强多机房容灾能力。




这次故障,对 B 站的影响不小,综合损失应该也不小,但如果去提升业务的连续性,还需要很大成本。常见的可用性通常以百分比表示,这也意味着高可用性不是绝对的。换句话说,100% 的可用性是不可能达到的,可用性从 99.99% 提升到 99.999%,每提升一个 9,需要十倍百倍的成本。可用性的效果和开销对应的比例并不是线性增长的,每提高一点可用性,所花费的成本都会远超之前。


虽然企业需要在这个非线性增加的成本和可用性之间进行权衡,但对于一些公司来讲,肯定还会去尝试获得更多的 “9”,减少应用的宕机时间,降低宕机成本。


如何用合适手段降低宕机风险、提高服务的高可用呢?乔燕良认为:“首先从架构上,建议采用云原生架构,实现自动容错机制和故障隔离,能够在服务出现故障时快速迁移或回滚。对于网站来说,实现数据服务高可用的挑战可能会比较突出,因为目前架构下多数服务都是无状态的、可以完成平滑迁移,而数据服务往往是有状态的,云原生服务(如目前的一些云原生数据库)通常具有很好的自动容错、弹性伸缩、安全隔离等功能。其次为防止硬件故障类风险,需要有完善的灾备方案。针对传统服务架构已经有比较成熟的同城双活和异地灾备方案,而基于云原生的高可用方案,比如 kubeadm 也已经比较成熟,只是国内企业在这块投入比较‘节约’。”


就像人工智能无法替代人类一样,目前的软件仍然是不可完全信任的。我们的世界瞬息万变,我们的软件(包括人工智能)只是对世界当前场景的理解和判断,随着时间的推进,某一时刻这些理解判断的逻辑会出现不适用甚至错误。这一时刻何时到来、环境又会变得怎样,将永远是最不可预测的因素。


你认为 B 站崩溃是什么原因导致的?欢迎留言讨论。

2021-07-14 16:2115911

评论 2 条评论

发布
用户头像
"主要可分为软件服务引起的故障和硬件服务引起的故障" 听君一席话,如听一席话
2021-08-30 09:47
回复
用户头像
b站一直就不怎么样,卡顿很常见。
2021-07-19 09:22
回复
没有更多了
发现更多内容

房产楼盘小程序管理系统:助力房产营销数字化升级的优质解决方案

微擎应用市场

全域洞察新时代:舆情监测与海外社交媒体监控的整合实战

沃观Wovision

社交媒体 沃观Wovision 舆情监测系统 海外舆情监测

打破AI孤岛:CIO集成实战指南

qife122

人工智能 数据治理

藏在能耗数据里的 “省钱密码”,MyEMS 帮你一一解锁不止节能,更是 “碳管理利器”!

开源能源管理系统

开源 开源能源管理系统

直播预告:Mooncake 如何破解成本、吞吐与长上下文困局? |《AI 进化论》第五期

OpenAnolis小助手

开源 操作系统 Mooncake 大模型推理 AI进化论

来信小程序管理系统:匿名信息传递与社交互动平台

微擎应用市场

python实现B站评论分页爬取

tbapi

B站 API接口 B站数据采集 B站视频评论采集 哔哩哔哩数据采集 B站评论API

拒绝 “能源糊涂账”!MyEMS 如何让中小企业能耗管理 “秒上手”?

开源能源管理系统

开源 能源管理系统

我和AI一块做了个社交网页玩

Lemoon Can

开放、协同,2025 云栖大会“操作系统开源与 AI 进化分论坛”精彩回顾

OpenAnolis小助手

开源 操作系统 云栖大会 龙蜥社区

智慧联防系统

深圳亥时科技

双管齐下:舆情监测与海外社交媒体监控的融合之道

沃观Wovision

社交媒体 沃观Wovision 舆情监测系统 海外舆情监测

报名开启丨ATCx Digital Twin:Altair 2025 数字孪生技术会议重磅来袭

Altair RapidMiner

AI 数字孪生 仿真 高性能计算 CAE

可逆计算:一场软件构造的世界观革命

canonical

兼顾效率和性能!快手低代码平台在大型活动中的技术实践!

快手技术

解码海外声音:社交媒体监控如何成为舆情监测的关键支点

沃观Wovision

跨境贸易 社交媒体 沃观Wovision 舆情监测系统 海外舆情监测

Roo Code 使用 Bright Data mcp 实现获取 Tiktok 数据一键生成页面

陈老老老板

AI Agent MCP

华为云云容器引擎CCE:文档内容细打磨,服务上手更轻松

华为云原生团队

云计算 容器 云原生

DataLab 平台亮相 MAIC 2025医学人工智能大会,和鲸助力同济医院构建医学 AI 科研新基础设施

ModelWhale

医学+AI 医学人工智能 华中科技大学附属同济医院 医学人工智能大会 MAIC

深入解析:使用Python爬取Bilibili视频的完整指南

tbapi

B站视频数据采集 B站 API接口 B站视频评论采集 哔哩哔哩数据采集

构建企业级 AI 应用:为什么我们需要 AI 中间件?

Apache RocketMQ

云原生 中间件 消息队列 云栖大会

房产楼盘小程序管理系统:助力房产营销数字化升级的优质解决方案

微擎应用市场

Playwright MCP浏览器自动化全攻略

测吧(北京)科技有限公司

广义可逆计算 (Generalized Reversible Computation): 一个软件构造范式的正名与阐释

canonical

【RFID智能工具柜品牌推荐】价格差异大吗?哪款性价比更高?

斯科信息

斯科信息 深科物联 RFID工具柜品牌推荐 RFID工具柜哪家好

拇指活动发布平台小程序管理系统:全场景活动管理解决方案

微擎应用市场

从 “被动耗能” 到 “主动优化”:MyEMS 开启商业建筑能源管理 “新范式”

开源能源管理系统

开源 开源能源管理系统

IT资产管理内容有哪些?-ManageEngine卓豪

ServiceDesk_Plus

ManageEngine卓豪

UniverAI平台让医药代表销售不再“翻资料”,合规更能非常高效

UniverAI智宇苍穹

AI 基础设施 企业级AI工程化 AI平台 UniverAI

再见 greenplum_path.sh,你好 cloudberry-env.sh

酷克数据HashData

微软SSO集成中的顺序用户ID身份验证绕过漏洞剖析

qife122

网络安全 单点登录 漏洞挖掘

B站崩了:事情不大,影响不小_架构_Tina_InfoQ精选文章