写点什么

Twilio 的混沌工程实践

  • 2017-12-27
  • 本文字数:920 字

    阅读完需:约 3 分钟

Twilio 团队分享了他们的初次混沌工程实践,他们使用 Gremlin 往自家的队列系统中注入故障,测试系统的自动恢复能力。

Twilio 提供 SMS 和电话网关服务,开发者可以在他们的代码中调用 Twilio 的 API。Twilio架构的核心部分是他们的分布式队列系统和速率限定系统。它提供了持久化的队列,解决了系统故障和消息处理的延迟问题,避免消息丢失。这个队列系统叫作 Ratequeue ,由 Twilio 团队开发。Ratequeue 对消息出队速率进行了限定——每个电话号码都有一个自己的临时队列。因为开发者有可能以很快的频率调用 API,所以速率限定是很有必要的,而 Twilio 将消息推送到电话网络的速度也需要加以控制。Ratequeue 是基于 Redis 开发的,可以进行横向扩展。单个分片故障并不会影响到其他分片。另外,为了高可用,每个分片都有自己的主节点和副本。

之前,如果有分片发生故障,需要由人工手动将副本提升为主节点。这就要求先定位到拥有相同分片数量的主机,然后把它加到负载均衡器中。Twilio 团队开发了两个系统,旨在对这一过程进行自动化——一个自动化的失效备援系统和一个用于测试前者的故障注入系统。故障注入系统属于混沌工程,通过制造随机的故障来测试系统的自我恢复能力。

测试的首要目的是保证零数据丢失,其次要保证能够自动检测出故障,并推举出新的主节点。Twilio 团队基于 Amazon Kinesis、Nagios 和 Lazarus 开发了自己的解决方案——也就是他们的集群自动化服务。每个 Ratequeue 副本将主节点的心跳情况发送给 Nagios,如果达到某个阈值,Nagios 就向 Kinesis 推送通知。Lazarus 监听 Kinesis,检查集群的健康状况,如果出现故障,就进行恢复。

为了测试自动故障恢复能力,Twilio 团队开发了一个叫作 Ratequeue Chaos 的工具,它会选择一个分片,停掉它的主节点,然后监控其自我恢复过程。他们有一个叫作 Gremlin 的服务,用于将故障注入到系统中,触发失效备援。Gremlin 支持可控的故障注入,Ratequeue Chaos 通过 Gremlin 提供的 API 来调用它。Twilio 的 staging 环境每 4 个小时会重复一次这个过程。

Twilio 团队也分享了他们从这一实践中学到的东西——基于测试模型的假设、用于运行测试的框架、在生产环境中需要有一个回退计划。

查看英文原文 Chaos Engineering at Twilio

2017-12-27 18:002298
用户头像

发布了 322 篇内容, 共 160.0 次阅读, 收获喜欢 148 次。

关注

评论

发布
暂无评论
发现更多内容

如何快速编写Markdown、博客文档(语法收藏)

android 程序员 移动开发

字节码插桩--你也可以轻松掌握

android 程序员 移动开发

字节跳动上传了一份“面试官版Android面试小册”,不讲一句废话

android 程序员 移动开发

字节跳动面试官:我用这10个问题,淘汰了80%的Android面试者------

android 程序员 移动开发

太厉害了,终于有人能把Android 事件分发机制讲的明明白白了!

android 程序员 移动开发

【死磕NIO】— NIO基础详解

chenssy

11月日更 死磕 Java 死磕 NIO

如何在Adapter中优雅的使用Context

android 程序员 移动开发

如何设计一个秒杀系统?

android 程序员 移动开发

安卓移动软件开发:手机防火墙的实现

android 程序员 移动开发

大厂面试官:跳出舒适圈的程序员3年月薪还没到2万,干脆考虑转行?

android 程序员 移动开发

如何在10分钟内让Android应用大小减少-60%?

android 程序员 移动开发

如何在跳槽后,Android程序员摸鱼也能学习进阶,为下次换工作进大厂拿高薪!

android 程序员 移动开发

官方推荐 Flow 取代 LiveData,有必要吗?

android 程序员 移动开发

天天给-App-抓包,还不懂-HTTP-代理吗?---实用-HTTP

android 程序员 移动开发

字节跳动抖音安卓客户端日常实习 3+1 面经(已 OC)

android 程序员 移动开发

字节跳动,华为,阿里巴巴,小米

android 程序员 移动开发

大家都说程序员是吃青春饭的、Android研发没前景,那等Android研发年纪大了又该怎么办?

android 程序员 移动开发

字节、腾讯2020高频Android面试题;JVM虚拟机原理深入解析(建议收藏

android 程序员 移动开发

实现长图片自动循环滚动效果

android 程序员 移动开发

实战_Android后台启动Activity实践之路

android 程序员 移动开发

如何在AndroidStudio中使用手势解锁

android 程序员 移动开发

字节瞧不上大龄程序员,我开始慌了……

android 程序员 移动开发

安卓开发教你如何自定义View并实现炫酷进度条

android 程序员 移动开发

FVM 切换VSCode 的Flutter版本

坚果

flutter 11月日更

安卓工具类之app获取版本渠道信息工具类

android 程序员 移动开发

太恐怖了!移动开发APP-可视化埋点技术原理竟然是这样的?!

android 程序员 移动开发

字节跳动上千道精选面试题还不刷起来!2019-2020大厂高级面试题集合(Handler,性能优化

android 程序员 移动开发

字节跳动千万用户量级直播活动技术保障实践

android 程序员 移动开发

在这个问题上,能看出 Android 工程师的真实水平

android 程序员 移动开发

基于-Kotlin-+-Netty-实现一个简单的-TCP-自定义协议

android 程序员 移动开发

字节跳动Android一面凉凉,竟以为一面是HR面---

android 程序员 移动开发

Twilio的混沌工程实践_DevOps & 平台工程_Hrishikesh Barua_InfoQ精选文章