写点什么

Twilio 的混沌工程实践

  • 2017-12-27
  • 本文字数:920 字

    阅读完需:约 3 分钟

Twilio 团队分享了他们的初次混沌工程实践,他们使用 Gremlin 往自家的队列系统中注入故障,测试系统的自动恢复能力。

Twilio 提供 SMS 和电话网关服务,开发者可以在他们的代码中调用 Twilio 的 API。Twilio架构的核心部分是他们的分布式队列系统和速率限定系统。它提供了持久化的队列,解决了系统故障和消息处理的延迟问题,避免消息丢失。这个队列系统叫作 Ratequeue ,由 Twilio 团队开发。Ratequeue 对消息出队速率进行了限定——每个电话号码都有一个自己的临时队列。因为开发者有可能以很快的频率调用 API,所以速率限定是很有必要的,而 Twilio 将消息推送到电话网络的速度也需要加以控制。Ratequeue 是基于 Redis 开发的,可以进行横向扩展。单个分片故障并不会影响到其他分片。另外,为了高可用,每个分片都有自己的主节点和副本。

之前,如果有分片发生故障,需要由人工手动将副本提升为主节点。这就要求先定位到拥有相同分片数量的主机,然后把它加到负载均衡器中。Twilio 团队开发了两个系统,旨在对这一过程进行自动化——一个自动化的失效备援系统和一个用于测试前者的故障注入系统。故障注入系统属于混沌工程,通过制造随机的故障来测试系统的自我恢复能力。

测试的首要目的是保证零数据丢失,其次要保证能够自动检测出故障,并推举出新的主节点。Twilio 团队基于 Amazon Kinesis、Nagios 和 Lazarus 开发了自己的解决方案——也就是他们的集群自动化服务。每个 Ratequeue 副本将主节点的心跳情况发送给 Nagios,如果达到某个阈值,Nagios 就向 Kinesis 推送通知。Lazarus 监听 Kinesis,检查集群的健康状况,如果出现故障,就进行恢复。

为了测试自动故障恢复能力,Twilio 团队开发了一个叫作 Ratequeue Chaos 的工具,它会选择一个分片,停掉它的主节点,然后监控其自我恢复过程。他们有一个叫作 Gremlin 的服务,用于将故障注入到系统中,触发失效备援。Gremlin 支持可控的故障注入,Ratequeue Chaos 通过 Gremlin 提供的 API 来调用它。Twilio 的 staging 环境每 4 个小时会重复一次这个过程。

Twilio 团队也分享了他们从这一实践中学到的东西——基于测试模型的假设、用于运行测试的框架、在生产环境中需要有一个回退计划。

查看英文原文 Chaos Engineering at Twilio

2017-12-27 18:002219
用户头像

发布了 322 篇内容, 共 157.3 次阅读, 收获喜欢 148 次。

关注

评论

发布
暂无评论
发现更多内容

pytorch实现空洞卷积+残差网络实验(torch实现

Studying_swz

深度学习 11月月更

深入nodejs的event-loop

coder2028

node.js

融云全球社交泛娱乐洞察,「视频社交」为什么好赚钱,难出圈?

融云 RongCloud

视频社交

图解KafkaConsumer SyncGroupRequest请求流程

石臻臻的杂货铺

kafka Kafka实战 11月月更

一文读懂Js中的this指向

hellocoder2029

JavaScript

用javascript分类刷leetcode3.动态规划(图文视频讲解)

Geek_07a724

JavaScript LeetCode

Java Web(十二)Vue&Element

浅辄

Vue javaWeb 11月月更

跟着卷卷龙一起学Camera--噪声与去噪04

卷卷龙

ISP camera 11月月更

Web中间件常见漏洞总结

网络安全学海

黑客 网络安全 信息安全 渗透测试 漏洞挖掘

云原生网络趋势 | K8s托管整个基础设施

叶秋学长

云原生 11月月更 网络趋势 云原生系列

现代化安全产品

I

安全产品设计 安全架构

安全规范建设指北

I

安全架构 策略 安全规范

算法题学习---链表相加(二)

桑榆

算法题 11月月更

一比一手写迷你版vue,彻底搞懂vue运行机制

hellocoder2029

跟着卷卷龙一起学Camera--噪声与去噪03

卷卷龙

ISP camera 11月月更

移动应用的手动测试策略

FunTester

深入剖析nodejs中间件

coder2028

node.js

安全左移移了么

I

安全架构 安全左移

深入理解Node.js的进程与子进程

coder2028

node.js

架构实战训练营模块 5 作业

Geek_b35d92

微博评论 微博

“好评返现” 被定为违法行为,互联网数据打假时代何时到来

石头IT视角

什么是无线通信协议?无线通信协议有哪些典型的协议?

wljslmz

wifi 无线通信 蓝牙 11月月更

一文彻底搞懂前端缓存机制

hellocoder2029

JavaScript

架构--模块5

李某人

架构训练营 #架构训练营

复杂组合逻辑电路

芯动大师

Verilog 11月月更 74LS138 译码器

设计模式之美--接口和抽象类区别

GalaxyCreater

设计模式

MUI实战之页面初始化与创建子页面对于新页面的实战心得

恒山其若陋兮

前端 mui 11月月更

JavaScript刷LeetCode拿offer-位运算

Geek_07a724

JavaScript LeetCode

前端leetcde算法面试套路之双指针

js2030code

JavaScript LeetCode

跟着卷卷龙一起学Camera--噪声与去噪02

卷卷龙

ISP camera 11月月更

微博评论高性能高可用计算架构

π

Twilio的混沌工程实践_DevOps & 平台工程_Hrishikesh Barua_InfoQ精选文章