写点什么

混沌工程落地的六个阶段

  • 2019-11-12
  • 本文字数:3061 字

    阅读完需:约 10 分钟

混沌工程落地的六个阶段

混沌工程六个阶段

从笔者所在团队的实践出发,我们将混沌工程总结为六个阶段,并对各个阶段的落地过程加以总结,希望能够对大家落地混沌工程有所帮助。今天主要是抛砖引玉,后续针对每个阶段,陆续会有专门的文章进行介绍。而混沌工程理论相关的部分,大家可以参考由 Netflix 出版的《混沌工程》迷你书。



上述各阶段涉及的部门和人员的数量,远远超过了当初的预估,因此该部分成为我们确定顺序的最主要因素,强烈建议大家实施混沌工程,一定要争取来自于管理层的支持以及周边团队的理解和配合,否则很容易导致项目虎头蛇尾。

单机破坏

重要性说明

以集群选主机制为例说明单机破坏的优先级和重要性,如果单机在某些场景异常后,集群无法选主,进而导致系统整体不可用。该问题如果在单机房破坏场景时才发现,那系统整体不可用了,你还能找出啥别的问题呢?一个机房的破坏场景,往往涉及多个部门的联动,大部分业务团队的各类角色均会参与其中,难道最后就得到一个结论:选主机制有问题。如果真是这样,你还打算继续干下去吗?

排序考虑

单机破坏能够在测试环境中发现绝大多数问题,并能扫清后续阶段的阻塞点,因此排在首位可谓是当之无愧。

破坏手段

在测试环境下,先从重启服务器开始,然后是关机,资源异常(如 CPU 打满)等场景。注意单机破坏场景不要把自己”拒之门外”。举个例子,把机器的 CPU 打满,但是没有设置打满的时长,结果自己也无法登录机器了,只能重启。


https://github.com/Netflix/SimianArmy/tree/master/src/main/resources/scripts


落地建议

  • 初期仅在测试环境中进行,仅进行重启场景的验证就足以发现很多问题;

  • 给出单机破坏的全部场景和验收方法,由各个团队自行落地;

  • 不恋战,只要问题不阻塞单机房破坏环节,不影响黄金流程即可进入下阶段。

单机房破坏

重要性说明

单机房故障是造成服务整体崩溃的主要原因之一,全球互联网巨头大多发生过单机房故障导致服务崩溃的情形。诸如外网出口异常,内网跨机房专线异常,机房核心交换机异常,各种网络抖动和拥塞,IDC 供电设备异常等等,相信大家都不陌生,因此其重要性可见一斑。

排序考虑

高频故障场景,故障后影响较为严重,业界有较多的最佳实践可供参考,模拟单机房破坏的难度和风险均较低,因此紧随单机破坏其后。

破坏手段

将跨机房的专线端口关闭即可,恢复则是将端口重新 up 即可,整个耗时可以控制在秒级。演练前,业务方需要提前将流量迁移到其他机房,观察跨机房的残余流量符合预期后再进行操作,否则就对残余流量进行排查,从而避免发生较为严重的故障。

落地建议

  • 如果近期公司内部发生类似的单机房故障,那是单机房破坏发起的最佳时机;

  • 通过数据分析来揭示风险,如跨机房交互的模块数量及比例,跨机房的流量带宽的增长趋势、使用率和成分分析,每次机房级网络调整各个业务受影响程度的统计,各个业务方对较大网络操作的接受度等;

  • 借助网络调整的机会,来间接实现第一次单机房破坏;

  • 如果仅仅破坏部分机房(如所有在线机房)是不足以发现所有的问题和隐患的,需要对所有机房逐一进行一次演练,才能发现一些潜藏的依赖和问题;

  • 单机房破坏的时间点尽量参照网络调整的时间点,大多数在凌晨 1 点左右进行。

依赖治理

重要性说明

依赖主要是第三方依赖和基础设施,包括但不限于 Mysql、Redis、K8S、DNS、LB、ELK、Hadoop 等,上述任何服务的故障,对业务影响都极为严重。以近期发生的 AWS 的 DNS 故障为例,持续 15 小时,多个业务受损。

排序考虑

基础设施可谓是牵一发动全身,故障频率低,故障影响大,因此依赖治理放在了单机和单机房之后。

破坏手段

基础服务和一般的业务场景无区别,主要也是通过单机破坏和单机房破坏等通用手段来进行快速的问题识别。

落地建议

  • 对于依赖的破坏,为了减少对业务方的影响,初期可以通过业务方的测试/预发环境+依赖的正式环境组合来进行破坏,也可以在离线机房对基础设施进行破坏;

  • 基础设施很大占比是开源软件,进行 Trace 的改造成本较高,因此要了解第三方依赖内部的关键点,并针对性的进行破坏演练。以 Mysql 为例来说,一般 Mysql 前面都会有一层 Proxy,如果 Proxy 正常,而 Mysql 异常会发生什么问题呢?事实证明,很多坑都在这个地方,而要想发现这个坑,那必然需要对 Mysql 的业务有一定的理解,也就是所谓的白盒;

  • 攘外必先安内,各类依赖大部分都是其他部门提供的服务,沟通成本和配合度上会有区别,因此需要先搞定自身的问题,然后再来进行第三方的依赖治理,不然很容易被人怼回去,毕竟很多依赖属于基础设施,牵一发动全身,人家配合的成本也是极大的;

  • 对于循环依赖需要在架构层面明确原则,然后再进行整体的改造。

全链路故障注入

重要性说明

所谓的精准注入,只影响特定的客户 ID、地域、设备类型、接口,还可以对注入的行为和比例等进行精准控制,从而大幅缩小故障范围,将故障的风险收敛到最小。因为是精准注入,因此必须具备全链路的观测能力,才能够将上述的细微的注入影响进行描述,否则,你可能很难回答,延时增加了 3s,是哪些模块的作用导致的。


传统的破坏方式,粒度只能控制在单机级别,很多影响非预期且及不可控。以 TC 命令为例,如果是按照一定比例进行破坏,你无法精准控制哪些请求会受到影响,运气足够差的情况下,也许你不希望被影响的请求全军覆没,而你期望被影响的请求则无一命中。另外,传统的破坏方式也没有统一的标准,有些需要用 tc 命令,有些是 iptables 命令,有些是写死/etc/hosts 文件,没有方便易用的方式,且本身存在较大的风险,很难进行大范围推广。下面是两者的对比:


tc qdisc add dev eth0 root netem delay   1000ms  500mstc qdisc add dev eth0 root netem loss    7%      25iptables -A INPUT -p udp -m udp --dport 53 -j DROPiptables -A INPUT -p tcp -s 10.0.0.0/8  -m limit --limit 500/s --limit-burst 100 -j ACCEPT echo "127.0.0.1 s3.amazonaws.com" >> /etc/hosts
复制代码


排序考虑

全链路追踪能力是故障注入的基础,需要所有的模块全部进行适配改造,否则调用链就会在某个阶段中断,进而导致不可完全追踪。同时对于一些开源软件,也需要进行适配,其成本是前四个阶段中最高的,耗时最长的,因此,故障注入往往会放在后期。

破坏手段

微服务化一般是基于 Istio 进行注入,或者在接入层进行注入均可。此处我们也在 Istio 的紧张改造中,后面可以给大家写专门的文章进行分享。

落地建议

对系统进行分级,首先将黄金流程进行改造,确保最核心的功能具备了能力,然后慢慢外扩到所有功能

CI/CD 整合

上述的四个手段,只能解决线上的存量问题,但无法阻止增量问题。因此,还需要将上述的各种能力,整合在 CI/CD 过程当中,在测试阶段进行拦截,从而彻底杜绝这类问题在线上发生的可能性。该部分目前我们也正在逐步建设和完善中,因此各种坑后续慢慢交流。

产品化

虽然通过 CI/CD 阶段的整合,可以将问题拦截在测试阶段,但这时候,每次都是测试阶段发现问题后让研发返工,对于研发就造成了极大的资源浪费。因此,需要将混沌工程形成的各种标准和规范,以产品化的形式交给研发同学使用,进而让大家都满意。


以单机起停脚本为例进行说明,每个模块的研发不同,可能存在的问题也不一样,这时候,发现问题后进行修改,不如提供一个统一的服务起停管理工具给研发使用,从而彻底解决该问题。开源软件类似 Systemd,Supervisor 和 Monit 都可以很好的解决这类问题,且对程序没有侵入性,不存在什么改造成本。


再高阶一些,就可以参考 Netflix 开源的各种软件https://github.com/Netflix/


参考文章:


Chaos Monkey 升级了


Gremlin 发布面向混沌实验的应用级故障注入(ALF)平台


2019-11-12 11:4422275

评论

发布
暂无评论
发现更多内容

Mac电脑专业矢量绘图 Amadine最新激活版

胖墩儿不胖y

Mac软件 矢量图设计工具 矢量图设计 设计矢量图

蓝光多媒体播放器 Blu-ray Player Pro最新激活中文版

mac大玩家j

Mac软件 视频播放器 蓝光播放器

4大焕新,华为云CCE带你感受容器化上云体验

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟

spss下载以及安装详细教程

晴雯哥

华为云API自然语言处理的魅力—AI情感分析、文本分析

轶天下事

蓝易云:如何在 Linux 环境下安装使用 pycharm?

百度搜索:蓝易云

云计算 Linux pycharm 云服务器 ECS

iWall:Mac上可以将任意视频设置为壁纸的软件

展初云

Mac Mac软件 Mac壁纸软件

Cloud Bursting解决方案,Serverless容器降本增效极致体验

华为云开发者联盟

云原生 后端 华为云 华为云开发者联盟

HarmonyOS远端状态订阅开发实例

HarmonyOS开发者

城投行业快速转型“投融建管营”新模式,用友Fast by BIP 很在行

用友BIP

Fast by BIP 城投行业

Web3 新手攻略:9 个不可或缺的 APP 助力你踏入加密领域

威廉META

MBBF展示的奇迹绿洲:5G的过去、此刻与未来

脑极体

华为 通信

Dynamic Wallpaper:Mac的动态壁纸引擎

展初云

Mac Mac软件 mac动态壁纸

Topaz Video AI for mac(视频增强修复工具) 3.5.3激活密钥版

mac

苹果mac 视频增强修复软件 Windows软件 Topaz Video AI

软件测试/测试开发丨校招推荐-中控技术股份有限公司岗位开放

测试人

程序员 软件测试 招聘 内推

【Fast By BIP 酒企数智化领先实践场景(一)】基于BIP的定制酒全周期管控平台,助力酒企高效交付管控

用友BIP

酒业 全周期管控

华为云ROMA Connect亮相Gartner®全球应用创新及商业解决方案峰会

轶天下事

什么档次,这个软件居然敢和墨墨不背扇贝百词斩等一众大佬比肩

一点点小创意

微信小程序 学习 产品设计 创新 大学英语四六级

修图不用Ps,Pixelmator Pro刚刚好

展初云

Mac Mac软件 修图软件

【数据安全】数据安全运维是什么意思?有什么意义?

行云管家

数据 信息安全 数据安全 等保 数据安全运维

华为云API人脸识别服务FRS的感知力—偷偷藏不住的你

轶天下事

杭州亚运会实现核心系统100%上云、云上转播7200+小时

阿里云视频云

云计算 亚运会

飞书深诺前端 SPA 敏捷部署方案演进

飞书深诺技术团队

架构 前端 CI/CD SPA 单页面应用

华为云API Explorer重磅推出API编排,开发者0代码高效构建工作流

轶天下事

蓝易云:动态bgp和静态bgp相比有哪些优势?

百度搜索:蓝易云

云计算 Linux 运维 BGP 云服务器

【开源三方库】Fuse.js:强大、轻巧、零依赖的模糊搜索库

OpenHarmony开发者

OpenHarmony

EVE-NG安装来啦

小魏写代码

开放原子开源大赛 | 玲珑赛题正式启动,诚邀报名!

开放原子开源基金会

开源 大赛 开源大赛

前端 | 如何使用 css 实现居中效果

Appleex

CSS 前端

百度智能云千帆大模型平台 2.0 产品技术解析

百度Geek说

大数据 百度 AI 企业号10月PK榜

华为云ROMA Connect行业生态联盟成立,携手共建行业软件合作新生态

轶天下事

混沌工程落地的六个阶段_软件工程_焦振清_InfoQ精选文章