写点什么

Twilio 的混沌工程实践

  • 2017-12-27
  • 本文字数:920 字

    阅读完需:约 3 分钟

Twilio 团队分享了他们的初次混沌工程实践,他们使用 Gremlin 往自家的队列系统中注入故障,测试系统的自动恢复能力。

Twilio 提供 SMS 和电话网关服务,开发者可以在他们的代码中调用 Twilio 的 API。Twilio架构的核心部分是他们的分布式队列系统和速率限定系统。它提供了持久化的队列,解决了系统故障和消息处理的延迟问题,避免消息丢失。这个队列系统叫作 Ratequeue ,由 Twilio 团队开发。Ratequeue 对消息出队速率进行了限定——每个电话号码都有一个自己的临时队列。因为开发者有可能以很快的频率调用 API,所以速率限定是很有必要的,而 Twilio 将消息推送到电话网络的速度也需要加以控制。Ratequeue 是基于 Redis 开发的,可以进行横向扩展。单个分片故障并不会影响到其他分片。另外,为了高可用,每个分片都有自己的主节点和副本。

之前,如果有分片发生故障,需要由人工手动将副本提升为主节点。这就要求先定位到拥有相同分片数量的主机,然后把它加到负载均衡器中。Twilio 团队开发了两个系统,旨在对这一过程进行自动化——一个自动化的失效备援系统和一个用于测试前者的故障注入系统。故障注入系统属于混沌工程,通过制造随机的故障来测试系统的自我恢复能力。

测试的首要目的是保证零数据丢失,其次要保证能够自动检测出故障,并推举出新的主节点。Twilio 团队基于 Amazon Kinesis、Nagios 和 Lazarus 开发了自己的解决方案——也就是他们的集群自动化服务。每个 Ratequeue 副本将主节点的心跳情况发送给 Nagios,如果达到某个阈值,Nagios 就向 Kinesis 推送通知。Lazarus 监听 Kinesis,检查集群的健康状况,如果出现故障,就进行恢复。

为了测试自动故障恢复能力,Twilio 团队开发了一个叫作 Ratequeue Chaos 的工具,它会选择一个分片,停掉它的主节点,然后监控其自我恢复过程。他们有一个叫作 Gremlin 的服务,用于将故障注入到系统中,触发失效备援。Gremlin 支持可控的故障注入,Ratequeue Chaos 通过 Gremlin 提供的 API 来调用它。Twilio 的 staging 环境每 4 个小时会重复一次这个过程。

Twilio 团队也分享了他们从这一实践中学到的东西——基于测试模型的假设、用于运行测试的框架、在生产环境中需要有一个回退计划。

查看英文原文 Chaos Engineering at Twilio

2017-12-27 18:002076
用户头像

发布了 322 篇内容, 共 152.3 次阅读, 收获喜欢 148 次。

关注

评论

发布
暂无评论
发现更多内容

湖仓一体架构解析:如何平衡数据灵活性与分析性能?

镜舟科技

数据仓库 数据湖 StarRocks 湖仓一体 实时分析

DEX 与 CEX:加密交易所初学者指南

One Block Community

应用上架需要多久,大概要一年吧

iofomo

android 应用审核 应用上架

专业的SVN客户端 Xversion for Mac

Rose

《算法导论(第4版)》阅读笔记:p4-p5

codists

算法

如何写出一份让HR眼前一亮的简历?全面实用的简历制作技巧指南(含平台对比推荐)

安全乐谷

互联网 面试 找工作 招聘 找实习

2025 年还可以期待 RWA 赛道吗?详解 RWA 技术实践逻辑

TinTinLand

安全性并非可有可无:建设者在区块链选择时考虑了什么?

One Block Community

从构建走向可用,2025 Q2 的波卡生态有哪些值得期待?

One Block Community

TCL电子(01070.HK)2025年首季度全球TV出货量与销售额双双保持高增

财见

2025年THE亚洲大学排名公布,KIIT跃居亚洲第184位、印度第8位

财见

《算法导论(第4版)》阅读笔记:p2-p3

codists

算法

Nexpose 8.5.0 for Linux & Windows - 领先的漏洞管理解决方案

sysin

Nexpose

Easysearch 移除 Data 节点注意事项

极限实验室

easysearch

试下这个插件,让vscode自动帮你敲代码

JYeontu

typescript 前端 vscode vscode插件

0G-CTO Wuming 深度专访|去中心化 AI 如何成为下一个时代操作系统?

TinTinLand

HR Path收购瑞士HR-IT咨询、实施和外包专家smahrt consulting AG,以扩大业务版图

财见

一键激活版Topaz Video AI 视频增强工具

Rose

VMware ESXi 8.0U3e macOS Unlocker & OEM BIOS Huawei (华为) 定制版

sysin

esxi

Coco AI 入驻 GitCode:打破数据孤岛,解锁智能协作新可能

极限实验室

开源 AI CocoAI Gitcode

软通动力2024年年报:软硬一体战略促营收新高,增幅超78%

财见

AutoCAD LT 2026中文激活补丁 cad2026简化版安装包

Rose

Cisco Catalyst 9800 Wireless Controller, IOS XE Release 17.17.1 ED

sysin

Cisco

Metasploit Pro 4.22.7-2025050101 (Linux, Windows) - 专业渗透测试框架

sysin

Metasploit

Web3 Gaming 赛道新风向|AI、跨链技术与经济模型如何重塑游戏体验?

TinTinLand

如何高效构建企业级大数据数仓?关键步骤与选型指南

镜舟科技

开源 OLAP StarRocks 大数据数仓 数据整合

Vitalik:将重塑以太坊主网,五年内像比特币网络一样简洁

ChainFlash链訊

区块链

七大赛道、丰厚奖池!Solana Breakout 2025 黑客松强势来袭

TinTinLand

孵化两个HarmonyOS 上线项目-自然壁纸和拾诗纪

万少

项目 HarmonyOS NEXT

《算法导论(第4版)》阅读笔记:p6-p6

codists

算法

为什么 Polkadot 和 Ethereum 都不约而同选择了 RISC-V?

One Block Community

Twilio的混沌工程实践_DevOps & 平台工程_Hrishikesh Barua_InfoQ精选文章