10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

Roblox 发布宕机报告,并表示关键业务坚决不上云

  • 2022-01-22
  • 本文字数:1338 字

    阅读完需:约 4 分钟

Roblox发布宕机报告,并表示关键业务坚决不上云

1 月 20 日,在线游戏平台 Roblox 发布了一份报告,详细解释了去年 10 月份的长达 73 小时的宕机事故原因。Roblox 表示宕机主要是因启用了 Consul 较新的流式传输功能导致性能下降最终引起系统崩溃。Consul 是 HashiCorp 开发的免费开源服务网络平台。

 

Roblox 是目前在全球范围内备受欢迎的在线游戏平台,涉及数百个内部在线服务,日活跃用户超过 5000 万,其中许多人的年龄在 13 岁或以下。值得一提的是,Roblox 还被认为是“元宇宙”(metaverse)的关键参与者。

 

去年万圣节前夕(10 月 28 日),Roblox 发生了一次超长时间宕机事故。由于长时间都不能恢复服务,对产品信誉造成了比较大的影响。Roblox 创始人兼 CEO 大卫·巴斯祖奇(David Baszucki)随后在一篇博客文章中称:“花了这么长时间才恢复服务,我们对此表示歉意。”并表示“这一次的宕机问题很复杂,难以解决,因为它涉及几个因素的组合。由于我们后端服务通信在负载过重时出现了一个细微的错误,导致我们基础设施中的核心系统变得不堪重负。但这并不是因为对外流量或任何特定体验超出峰值所致。相反,故障是由我们数据中心服务器数量的增长造成的。”

 

事情过去快三个月,Roblox 终于发布了详细的报告。在报告中,Roblox 的技术人员解释到,Roblox 程序运行在他们自己的数据中心中,拥有超过 18,000 台服务器和 170,000 个容器,部署规模巨大。为了在多个站点上运行数千台服务器,Roblox 使用了“HashiStack”技术套件。其中包含 Consul,以 Master/slave 模式来管理集群状态,进行服务发现、健康检查、会话锁定(用于构建在顶部的 HA 系统)以及作为 KV 存储。

 

10 月 28 日下午,单个 Consul 服务器 CPU 负载过高,并且 Master/slave 无法正常同步。当 Roblox 服务想要与另一个服务对话时,它依赖于 Consul 来获取想要与之对话的服务的最新位置信息。但是如果 Consul 不健康,服务器将难以连接。另外,调度服务也依赖于 Consul,因此当 Consul 不健康时,系统无法调度新容器或检索身份验证信息。这致使系统健康状况显着下降,最终导致系统完全中断。

 

技术人员首先迁通过移集群排除了硬件问题,随后关闭、开启 Consul 集群服务经过约 50 个小时的排查得知是因为之前将 Consul 的长轮询改为了流式传输,在读负载和写负载都很高的情况下,流加剧了单个 Go 通道的竞争,导致写入过程中出现阻塞。同时,Consul 使用了一个流行的开源持久性库 BoltDB 来存储 Raft 日志,BoltDB 的设计导致了磁盘空间无限增长。

 

宕机 54 个小时后,通过禁止流式传输功能,将其中一个 Consul 集群恢复为了正常状态,并逐渐恢复了系统的服务能力。事后,HashiCorp 团队也将 BoltDB 改为了bbolt

 

在这样的中断之后,很多人很自然地询问 Roblox 是否会考虑迁移到公共云,让第三方管理 Roblox 的基础计算、存储和网络服务。

 

Roblox 技术人员表示,与公有云相比,自建数据中心能够显着控制成本。此外,拥有自己的硬件并构建自己的边缘基础设施能使 Roblox 最大限度地减少性能变化并管理全球玩家的延时。但也并不拘泥于任何特定的方法:“我们将公共云用于对我们的玩家和开发人员最有意义的用例,例如突发容量、大部分 DevOps 工作流程以及大部分内部分析。但对于对性能和延迟至关重要的工作负载,我们选择在本地构建和管理自己的基础架构。这样才能使我们能够建立一个更好的平台。”

 

2022-01-22 19:536136

评论 1 条评论

发布
用户头像
沙发!
2022-01-24 18:45
回复
没有更多了
发现更多内容

敏捷开发与DevOps的对比

码语者

DevOps 敏捷

BSN IPFS(星际文件系统)专网简介、功能、架构及特性、接入说明

BSN研习社

BSN 分布式存储,

spark-streaming状态流之mapWithState

矛始

spark 状态流

双屏协作效率翻倍 灵耀X双屏Pro引领双屏科技新潮流

科技热闻

兆骑科创高端人才项目引进落地,双创大赛承办,线上直播路演

兆骑科创凤阁

双创大赛承办

AOP切入点表达式及五种通知类型解析

王小凡

Java 将OFD转换为PDF

在下毛毛雨

Java PDF OFD 格式转换

DevSecOps,让速度和安全兼顾

飞算JavaAI开发助手

一文搞懂│XSS攻击、SQL注入、CSRF攻击、DDOS攻击、DNS劫持

网络安全 经验分享 签约计划第三季

共议公共数据开放,“数牍方案”亮相数字中国建设峰会

Jessica@数牍

隐私计算 数牍科技 公共数据开放

带你熟悉云网络的“电话簿”:DNS

华为云开发者联盟

云计算 后端 IP DNS 局域网

TDengine 落地协鑫能科,数百亿数据压缩至 600GB

TDengine

数据库 tdengine 时序数据库

netty入门之服务端启动过程分析

Hex

Java 后端 Netty

智能家居行业发展,密切关注边缘计算和小程序容器技术

Speedoooo

智能设备 边缘计算 智能家居 小程序容器

大咖说·图书分享 | 精益产品开发:原则、方法与实施

大咖说

产品开发 落地方法

如何通过ETL调度工具 TASKCTL 使用作业插件类型调用 kettle作业?

敏捷调度TASKCTL

数据仓库 kettle ETL #运维 TASKCTL

技术风向标 | 云原生技术架构成熟度模型解读

阿里巴巴云原生

阿里云 云原生 成熟度模型

Qakbot新型感染链:使用Windows7系统侧加载感染设备

郑州埃文科技

dll Windows7 Qakbot

1对1直播源码——1对1语音聊天源码

开源直播系统源码

直播系统源码 语音聊天系统软件开发 一对一语音聊天软件

次轮Okaleido Tiger即将登录Binance NFT,引发社区热议

西柚子

实践GoF的23种设计模式:观察者模式

华为云开发者联盟

Web 设计模式 开发 GoF

超越 Nginx!号称下一代 Web 服务器,用起来够优雅

冉然学Java

Java nginx GitHub 服务器 Web、

公共数据如何兼顾开放利用和隐私安全合规?

Jessica@数牍

数据安全 隐私计算 公共数据开放 数据开放和利用

Plato Farm有望通过Elephant Swap,进一步向外拓展生态

小哈区块

使用python玩转文字类视频

技能实验室

签约计划第三季

什么是传输层协议TCP/UDP???

C++后台开发

TCP 网络协议 udp 后端开发 C/C++开发

担心 GitHub?那就试试极狐GitLab 吧

极狐GitLab

git GitHub 开源 DevOps gitlab

一文详解 Redis 中 BigKey、HotKey 的发现与处理

冉然学Java

Java redis 微服务 bigkey HotKey

大型仿人机器人整机构型研究与应用

优必选科技

机器人

我们被一个 kong 的性能 bug 折腾了一个通宵

尔达Erda

程序员 运维 云原生 性能 bug

研发效能的道与术 - 道篇

FreeW

架构 研发效能

Roblox发布宕机报告,并表示关键业务坚决不上云_服务革新_Tina_InfoQ精选文章