写点什么

ChaosConf 2018:混沌实验的演变

  • 2018-10-14
  • 本文字数:1130 字

    阅读完需:约 4 分钟

在美国旧金山举行的首届 ChaosConf 大会上,Kolton Andrus 做了一个有关混沌实验在过去八年中如何演变的演讲。他认为,与处理故障有关的人力和组织方面的内容不应该被忽略,并建议工具应该支持应用程序和请求级别的故障注入测试,以便最小化潜在的故障影响范围。

Andrus 是 Gremlin 的首席执行官,他通过谈论混沌实验在行业内的演变拉开了活动的帷幕。他将“level 0”实验视为为云端的主机故障做准备。这需要较低的成熟度,而且通常需要使用诸如 Chaos Monkey 之类的工具将主机故障随机地注入到系统中。随着实践的成熟,“level 1”和“level 1.5”实验的实现变得训练有素,并且将额外的重点放在试验网络故障上。这需要网络专业知识和更高级的运营成熟度。

与处理故障有关的人力和组织方面的内容也成为 level 1.5 的一个焦点。这里的实验通常是通过“游戏日”来实现的,这些游戏日提供了训练机会,并模拟故障,以便观察人们在真实情况下的反应。Andrus 警告说,并非所有组织都认识到发展组织应对故障能力和对员工进行适当训练的价值:

我工作过的很多公司在进行轮班待命训练时,摆出一副“这里是你的寻呼机和仪表盘——祝你好运”的姿态。这是不可接受的。

接下来,Andrus 表示,主机测试和基于 OSI Layer 3 和 Layer 4 的网络测试对于很多想要运行混沌实验的组织来说是不够的,因为需要更精细的粒度来限制影响并安全地测试应用程序。他说,“运营人员通常考虑的是请求级别的东西”,为了使用请求级别的数据和元数据来选择性地控制测试和实验,工具需要知道应用级别( Layer 7 )的东西。

在这个时候,Andrus 宣布了 Gremlin 的新应用级故障注入(ALFI)产品。ALFI 支持“level 2”的实验。这是通过在系统中指定“坐标”并匹配针对一组目标运行的实验来实现的。坐标包括应用程序的关注点,例如用户标识符或 A/B 测试,以及平台的关注点,例如服务或地理区域。工程师还可以使用自定义实现来定义自己的坐标。

在演讲结束时,Andrus 总结说,有针对性的坐标可以用来最小化实验的潜在影响范围,并且可以在不干扰整个系统的情况下重现生产环境的中断。应该以迭代的方式安全地扩展实验:

  1. 使用测试用户或设备验证用户体验;
  2. 运行 1%的流量,对影响进行评估;
  3. 运行 10%的流量;
  4. 扩展到 25%、50%、100%。

也可以使用类似的模式来重现中断:

  1. 发生中断时,请假设一个原因;
  2. 创建一个针对单个测试用户的实验;
  3. 以测试用户身份登录并加载页面或应用程序;
  4. 找到日志或证据并验证假设;
  5. 创建拉取请求以修复问题。

有关首届 ChaosConf 的详细信息可以在大会网站上找到,演讲的录像可以在 Gremlin 的 YouTube 频道“ ChaosConf 2018 ”中找到。

查看英文原文 An Evolution of Chaos Experimentation: Kolton Andrus at ChaosConf 2018

2018-10-14 19:001555
用户头像

发布了 731 篇内容, 共 477.4 次阅读, 收获喜欢 2008 次。

关注

评论

发布
暂无评论
发现更多内容

Arturia V Collection X for mac(经典合成器和键盘合集) v27.08.2024最新版

Rose

合成器 Arturia V Collection X

After Effects插件:AutoCircularMotion(图层圆周运动工具AE脚本)

Rose

After Effects插件 图层圆周运动工具 AutoCircularMotion

mac游戏:魔兽争霸3冰封王座Warcraft III for mac 版

你的猪会飞吗

魔兽争霸3 冰封王座 Mac游戏下载

文献解读-《Beta-amylase and phosphatidic acid involved in recalcitrant seed germination of Chinese chestnut》

INSVAST

农业 基因数据分析 生信服务

Plugin Alliance Bettermaker Passive Equalizer(Bettermaker无源均衡器)

Rose

ps天文景观插件 Astro Panel Pro for Mac v6.0.0苹果版

Rose

ps天文景观插件 Astro Panel Pro Photoshop插件下载安装

输入一句话,生成一个应用:低代码平台如何借力AI大模型颠覆开发模式

天津汇柏科技有限公司

低代码平台 AI大模型

深度解析HarmonyOS SDK实况窗服务源码,Get不同场景下的多种模板

HarmonyOS SDK

HarmonyOS

A股迎来中报季,合合信息文档解析技术辅助大模型深度解读财报

合合技术团队

金融 PDF 科技

FCPX插件motionVFX mLowers动态下标题

Rose

fcpx插件 fcpx标题模板 motionVFX mLowers 动态下标题

VMware Cloud Foundation 9 发布 - 领先的多云平台

sysin

云计算 vSphere vmware esxi vcf

IoTDB 在顶级会议 VLDB 2024:四篇最新论文入选,特邀做 TPC 报告与讨论会!

Apache IoTDB

fcpx音量大小调节插件 CrumplePop Levelmatic

Rose

fcpx音量大小调节插件 CrumplePop Levelmatic

15款中国风大气水墨笔触PS笔刷

Rose

中标智能制造!亚信科技+用友网络,助重庆大型制造企业重塑生产管理

亚信AntDB数据库

AntDB

华为亮相KubeCon China 2024 ,引领全球智能化新浪潮

新消费日报

Output Thermal for Mac 操作简便的动态多级失真插件

Rose

从零开始带你玩转 AI 变现公开课

测吧(北京)科技有限公司

测试

人工智能 | 清华大学ChatGLM大模型

测吧(北京)科技有限公司

测试

Skew for mac 快速倾斜形状sketch工具+Skew使用方法

Rose

sketch工具 Skew插件下载 快速倾斜形状工具插件

面试官:Kafka中的key有什么用?

王磊

Apache RocketMQ 批处理模型演进之路

阿里巴巴云原生

Apache 阿里云 RocketMQ 云原生

ChaosConf 2018:混沌实验的演变_服务革新_Daniel Bryant_InfoQ精选文章