写点什么

ChaosConf 2018:混沌实验的演变

  • 2018-10-14
  • 本文字数:1130 字

    阅读完需:约 4 分钟

在美国旧金山举行的首届 ChaosConf 大会上,Kolton Andrus 做了一个有关混沌实验在过去八年中如何演变的演讲。他认为,与处理故障有关的人力和组织方面的内容不应该被忽略,并建议工具应该支持应用程序和请求级别的故障注入测试,以便最小化潜在的故障影响范围。

Andrus 是 Gremlin 的首席执行官,他通过谈论混沌实验在行业内的演变拉开了活动的帷幕。他将“level 0”实验视为为云端的主机故障做准备。这需要较低的成熟度,而且通常需要使用诸如 Chaos Monkey 之类的工具将主机故障随机地注入到系统中。随着实践的成熟,“level 1”和“level 1.5”实验的实现变得训练有素,并且将额外的重点放在试验网络故障上。这需要网络专业知识和更高级的运营成熟度。

与处理故障有关的人力和组织方面的内容也成为 level 1.5 的一个焦点。这里的实验通常是通过“游戏日”来实现的,这些游戏日提供了训练机会,并模拟故障,以便观察人们在真实情况下的反应。Andrus 警告说,并非所有组织都认识到发展组织应对故障能力和对员工进行适当训练的价值:

我工作过的很多公司在进行轮班待命训练时,摆出一副“这里是你的寻呼机和仪表盘——祝你好运”的姿态。这是不可接受的。

接下来,Andrus 表示,主机测试和基于 OSI Layer 3 和 Layer 4 的网络测试对于很多想要运行混沌实验的组织来说是不够的,因为需要更精细的粒度来限制影响并安全地测试应用程序。他说,“运营人员通常考虑的是请求级别的东西”,为了使用请求级别的数据和元数据来选择性地控制测试和实验,工具需要知道应用级别( Layer 7 )的东西。

在这个时候,Andrus 宣布了 Gremlin 的新应用级故障注入(ALFI)产品。ALFI 支持“level 2”的实验。这是通过在系统中指定“坐标”并匹配针对一组目标运行的实验来实现的。坐标包括应用程序的关注点,例如用户标识符或 A/B 测试,以及平台的关注点,例如服务或地理区域。工程师还可以使用自定义实现来定义自己的坐标。

在演讲结束时,Andrus 总结说,有针对性的坐标可以用来最小化实验的潜在影响范围,并且可以在不干扰整个系统的情况下重现生产环境的中断。应该以迭代的方式安全地扩展实验:

  1. 使用测试用户或设备验证用户体验;
  2. 运行 1%的流量,对影响进行评估;
  3. 运行 10%的流量;
  4. 扩展到 25%、50%、100%。

也可以使用类似的模式来重现中断:

  1. 发生中断时,请假设一个原因;
  2. 创建一个针对单个测试用户的实验;
  3. 以测试用户身份登录并加载页面或应用程序;
  4. 找到日志或证据并验证假设;
  5. 创建拉取请求以修复问题。

有关首届 ChaosConf 的详细信息可以在大会网站上找到,演讲的录像可以在 Gremlin 的 YouTube 频道“ ChaosConf 2018 ”中找到。

查看英文原文 An Evolution of Chaos Experimentation: Kolton Andrus at ChaosConf 2018

2018-10-14 19:001392
用户头像

发布了 731 篇内容, 共 466.9 次阅读, 收获喜欢 2006 次。

关注

评论

发布
暂无评论
发现更多内容

AI之山,鸿蒙之水,画一幅未来之家

脑极体

AI

如何在云效中使用 DeepSeek 等大模型实现 AI 智能评审

阿里云云效

阿里云 云原生 云效

《Operating System Concepts》阅读笔记:p473-p480

codists

操作系统

金三银四真实面经分享

王中阳Go

Go 面试 后端

AI招聘APP的核心功能

北京木奇移动技术有限公司

AI智能体 AI招聘 软件外包公司

HarmonyOS NEXT 基于原生能力获取视频缩略图

威哥爱编程

HarmonyOS ArkTS HarmonyOS框架 HarmonyOS NEXT

Rust 开发者必备:三分钟搞定视频缩略图生成

Yeauty

rust ffmpeg Video media audio

低代码实验案例设计图文操作指南!4C大赛 AI 通识教育实验创新微课赛道火热报名中

ModelWhale

#人工智能 中国大学生计算机设计大赛 4C大赛 #微课 #教育

Netty源码—客户端接入流程

不在线第一只蜗牛

Java php 服务器

HarmonyOS NEXT 实现拖动卡片背景模糊效果

威哥爱编程

HarmonyOS HarmonyOS框架 HarmonyOS NEXT

最佳实践 | 在 EMR Serverless Spark 中实现 Doris 读写操作

阿里云大数据AI技术

大数据 spark Serverless 云原生 EMR

AI招聘APP的技术难点

北京木奇移动技术有限公司

AI智能体 AI招聘 软件外包公司

YashanDB dump

YashanDB

数据库 yashandb

FeedbackStream:8 分钟创建 AI 面试智能体;Moshi 开源图像理解实时语音模型 MoshiVis 丨日报

声网

2025杭州国际安防产品博览会(浙江安博会)

AIOTE智博会

安博会 浙江安博会

年薪50W+的测试开发工程师,都在偷偷学这些技能

测试人

软件测试

Spring Boot 与 MyBatis Plus 整合 KWDB 实现 JDBC 数据访问

KaiwuDB

数据库 KaiwuDB

SvelteKit 最新中文文档教程(9)—— 部署静态站点与单页应用

冴羽

vue.js 前端 React Svelte SvelteKit

HarmonyOS:@AnimatableExtend 装饰器自学指南

李游Leo

HarmonyOS HarmonyOS NEXT

哈尔滨网络安全等级保护测评

黑龙江陆陆信息测评部

YashanDB健康检查

YashanDB

数据库 yashandb

淘宝商品SKU信息抓取实战:5步搞定API封装(附代码)

代码忍者

淘宝API接口

北京国家会计学院“数智财务高端人才”培养项目启动报名!

用友智能财务

财务 会计

YashanDB故障诊断概念

YashanDB

数据库 yashandb

YashanDB巡检

YashanDB

数据库 yashandb

08.面向对象的特性

杨充

AI招聘APP的技术框架

北京木奇移动技术有限公司

AI应用 AI招聘 软件外包公司

具身智能:人工智能的革命——从算法智能到物理智能的范式转移

测试人

人工智能

如何在云效中使用 DeepSeek 等大模型实现 AI 智能评审

阿里巴巴云原生

阿里云 AI 云原生

广告发布平台(源码+文档+讲解+演示)

深圳亥时科技

P6户外LED显示屏的特点有哪些?

Dylan

广告 LED显示屏 全彩LED显示屏 户外LED显示屏 led显示屏厂家

ChaosConf 2018:混沌实验的演变_服务革新_Daniel Bryant_InfoQ精选文章