阿里、蚂蚁、晟腾、中科加禾精彩分享 AI 基础设施洞见,现购票可享受 9 折优惠 |AICon 了解详情
写点什么

Twitter 的故障处理机制:故障测试

  • 2015-12-29
  • 本文字数:1728 字

    阅读完需:约 6 分钟

对于 Twitter 这样的基础设施规模,硬件和网络错误是不可避免的,但无论是哪一种错误都可能对用户体验造成消极的影响,因此对一个系统而言弹性的错误处理能力是非常重要的,那么 Twitter 是怎样做的呢?最近 Twitter 基础设施工程团队的负责人 Mazdak Hashemi 在官方博客上发表了一篇文章,介绍了 Twitter 的故障测试机制

为了测试服务如何响应异常,Twitter 创建了一个能够将受控的故障条件注入到基础设施中的框架,通过该框架 Twitter 能够发现漏洞,从而更好地为全站范围内的事件处理做好准备,保证系统对意外故障具有较好的容错性。

框架

Twitter 的故障测试框架由一个 Python 类库和一个命令行可执行程序组成,通过该框架工程师能够将故障条件直接引入到产品基础设施中,然后能够在测试执行期间监控全站范围的健康指标,并在状态发生变化的时候发送系统通知。

该框架包含三个模块:

  • 故障引入(Mischief)模块,在产品服务和基础设施中引入或者撤回故障测试
  • 监控模块,检查服务的健康指标,查找可能导致全站范围事件的状态
  • 通知模块,与 HipChat 和 JIRA 等系统交互,在故障测试执行期间提供实时的状态更新

到目前为止,框架支持的故障条件包括:

  • 发送命令给 IPMI 控制器和 PDU 的功率损耗
  • Mesos 中服务集群的部分或者全部丢失
  • 推送新转换配置造成的网络丢失

下面是一个介绍工程师如何使用框架测试故障条件的示例,该示例为 abc 机架上的所有 Hadoop DataNode 引入了一个 30 分钟的功率损耗,然后监控健康指标并向聊天室发送状态更新:

复制代码
failure_test:
name: Power loss within rack abc in datacenter abcd
duration_mins: 30
mischief:
- power_loss:
datacenter: abcd
selectors:
- group:
type: role
name: hadoop.datanode
- group:
type: rack
name: abc
notifiers:
- chat:
rooms:
- Failure Testing
monitors:
- observability:
datacenter: abcd
queries: !snippet

将这些配置发送到框架的命令行工具上之后,框架首先会解析这些配置,确认其有效性。接下来框架会进入准备阶段,收集引入故障条件所需的所有信息,例如目标机器的主机名和 IPMI BMC 接口的地址等。准备成功之后,框架会检查需要测试的所有系统是否健康,并尝试引入请求的故障条件。如果条件引入成功,框架就会定期地(每分钟)检查监控,确保测试期间所有系统都运转正常,如果这期间有任何一个监控发送了错误的状态,那么测试就失败,否则测试就成功。但是无论是成功还是失败,框架都会在测试执行完成之后立即取消引入的所有故障条件。

完整的流程图如下:

挑战

Twitter 运行的基础设施具有异构且动态的特性,所以在为一个具体的服务引入故障测试时需要细心的设计和计划,考虑要全面。例如,托管在 Apache Aurora 上动态调度的服务与直接运行在硬件设备上的服务不同。为了找到引发异常的真正原因,必须捕获完整的测试环境,包括机架配置、服务类型以及流量等信息,因为在某些情况下,异常可能是由上游或下游的问题,或者是服务恢复行为引发的。

使用情况与经验教训

在过去的 6 个月,这一框架驱动了 Twitter 所有的故障测试,帮助 Twitter 发现了大量的漏洞,让 Twitter 对 Apache Mesos Apache Aurora 等主要系统的弹性故障处理机制有了非常强烈的信心。

另外,Twitter 还总结了一些经验教训。例如,从机架顶部开关损坏的故障中总结出:当这种情况发生的时候,运行在该机架上的服务要么全部从网络上丢失,要么丢失部分包,对于前一种情况 Twitter 的服务能够很好地处理,但是后一种情况却几乎总是会造成某些内部的影响,这种影响的严重程度取决于机架的配置和 Mesos 从机上运行的服务种类。

未来的工作

Twitter 将继续使用该框架测试基础设施对随机故障的处理能力,找到系统的瓶颈。同时,故障测试程序的范围也会增加,将来扩展 RPC 系统层也将支持这种机制。


感谢杜小芳对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ @丁晓昀),微信(微信号: InfoQChina )关注我们,并与我们的编辑和其他读者朋友交流(欢迎加入 InfoQ 读者交流群(已满),InfoQ 读者交流群(#2))。

2015-12-29 18:001763
用户头像

发布了 321 篇内容, 共 115.9 次阅读, 收获喜欢 18 次。

关注

评论

发布
暂无评论
发现更多内容

ISO 21434解析:汽车软件开发者的合规实践与指南

龙智—DevSecOps解决方案

汽车电子

TypeChat全面指南:从核心概念到使用

星辰编程理财

AIGC AI编程 typechat

腾讯用数字孪生技术,帮这群中学生打造了第一款应用

科技热闻

网络加速与文件传输软件:如何通过优化网络提升文件传输速度

镭速

文件传输 文件传输软件

明道云联合EMQ基于IIoT场景技术白皮书

明道云

【墨菲安全实验室】Apache Traffic Server Range 标头验证不当(CVE-2023-33934)

墨菲安全

Apache 网络安全 安全

BeanDefinition解密:构建和管理Spring Beans的基石

华为云开发者联盟

开发 华为云 华为云开发者联盟 企业号 8 月 PK 榜

软件测试 | Object类-接收任意引用类型的对象

测吧(北京)科技有限公司

测试

确保数据一致性:单一可信数据源(SSOT)的概念与5个应用示例

龙智—DevSecOps解决方案

ssot single source

流计算 Oceanus 操作效率提升指南(一)

腾讯云大数据

流计算 Oceanus

网易云信回声消除量化评估方法

网易云信

回声消除 音视频技术

科兴未来|奖金共计1550万元!“苏颂杯”未来产业技术创新赛

科兴未来News

openGauss数据库在CentOS上的安装实践

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟 企业号 8 月 PK 榜

SaaS,PaaS和IaaS:有什么区别,应该使用哪个?

2D3D前端可视化开发

云计算 可视化 IaaS PaaS SaaS

软件测试 | 查看网页的HTML源代码

测吧(北京)科技有限公司

测试

从生成式AI到合成式AI ,MarTech下一步如何进化

ToB行业头条

成都Go面试这么卷?卷王介绍:游戏行业 3年经验 20k+

王中阳Go

Go golang 面试题 面经 算法题

聊聊低代码的本质,是应用开发的未来吗?

高端章鱼哥

低代码 应用开发 JNPF

那些把爱好当事业的人,最后怎么样了?

最新动态

基于SDK方式的小程序监控

郑州埃文科技

网络性能

大数据传输的定义与大数据传输解决方案的选择

镭速

大数据传输 大数据传输技术

网易云信回声消除量化评估方法

网易智企

回声消除 音视频通话

OpenHarmony携千行百业创新成果亮相HDC.Together 2023

OpenHarmony开发者

OpenHarmony

强劲实力闪耀榜单,智领云连续四年入选“中国大数据50强”

智领云科技

云原生大数据平台 智领云 云原生K8s大数据平台 大数据产业生态大会

软件测试 |Object类 - 匿名内部类

测吧(北京)科技有限公司

测试

软件测试 | 什么是安全测试

测吧(北京)科技有限公司

测试

大环境下,企业如何找到大数据传输解决方案

镭速

大数据传输

软件测试 | 什么是Web应用

测吧(北京)科技有限公司

测试

Supersonic 发行平台独家上线“知识中心”,为出海开发者打造游戏智库

科技热闻

TypeChat入门指南:从安装到对话流程设计

星辰编程理财

typescript typechat

龙智Atlassian认证专家、Perforce技术专家将于ACT汽车电子与软件技术周带来主题演讲,分享嵌入式开发中的最佳实践与工具链构建

龙智—DevSecOps解决方案

汽车电子 ACT汽车电子与软件技术周

Twitter的故障处理机制:故障测试_语言 & 开发_孙镜涛_InfoQ精选文章