写点什么

使用混沌工程增强 API 的可恢复性

  • 2018-05-28
  • 本文字数:1343 字

    阅读完需:约 4 分钟

看新闻很累?看技术新闻更累?试试下载 InfoQ 手机客户端,每天上下班路上听新闻,有趣还有料!

Gremlin 团队在博客上给出了一种简单的混沌实验,可用做验证一个组织的API 是否具有可恢复性的方法。与适当地使用此领域中涌现的商业和开源工具一样,使用混沌工程的原则以及运行“游戏日”(可看成是IT 系统和人员的消防演练)等技术同样可体现出自身的价值。

在这篇由Gremlin 首席站点可靠性工程师 Tammy Butow 撰写的博客帖子中,一开篇就指出,尽管很多组织通过基于 Web 的 API 提供自身的服务(以及提供核心商业价值),但是从作者的经验看,这些 API 及相关的架构常被看成是“二等公民”。随着组织规模的扩张,这种方式存在着一些风险,例如可导致用户体验降级的 API 层失败,甚至是非常严重的事故。在与之相关的运行模式中,增加API 的使用将会增大相关后台系统的压力,并且由请求数量增加而产生的负载可能并非与性能和可靠性呈线性关系。因此,工程师应该制定并运行一些试验,了解负荷增加、系统退化和基础设施失效的影响情况,并最终设计出可降低风险的系统。

Butow 建议,使用“混沌工程”原则和“游戏日”是形成上述理解并设计实验的最好方式。对于不熟悉“游戏日”概念的读者,Adrian Cockcroft 在QCon 旧金山大会将其比喻为“ IT 领域的消防演练”。出乎意料的应用行为或架构失败,常会导致工程师的人为介入,这会使情况变得更糟。在日常生活中,消防演习可训练人们接受如何应对火灾,进而在真正发生火灾的情况下挽救生命,IT 游戏日发挥了同样的作用。

该 Gremlin 博客帖子中,给出了一个针对典型 API 网关重度负载情况的例子脚本,并介绍了如何使用 Gremlin 的“可恢复服务”SaaS 商业平台实现在运行 API 网关的计算实例上注入失败(例如,高 CPU 或内存使用率,或者完全终止)。Butow 在博客帖子中强调指出(她同样也曾在先前的 QCon 伦敦大会演讲中提及),在开始运行混沌实验之前,对监控和可观察性的需求是至关重要的。

“在着手测定 API 可恢复性之前,你应该做的一件事情就是在一致的基础上运行混沌实验。确保你具有良好的可见性(监控),并增加回退覆盖率,所有这些将有助于强化你的系统。”

混沌工程原则正逐渐被主流大众所采纳。这一方面是在 Gremlin 等商业混沌工具和服务业务的驱动下,另一方面的驱动力也来自于一些该领域的先驱者(例如 Netflix ,早期 chaos monkey 的创立者)、一些由社区牵头的工作(例如 Chaos Toolkit )以及一些企业组织(例如 Expedia 和 Bloomberg。后者发布了专用于 Kubernetes 的开源混沌工具“ PowerfulSeal ”)。

随着混沌工程日渐广为采用,这正引导组织考虑是否应构建或购买相关工具,Gremlin 团队推荐工程师应在一些权衡上做出考虑,包括:构建自身混沌实验平台的TCO(总体拥有成本,Total Cost of Ownership)、将内部系统暴露给外部SaaS 平台的能力(以及可取性),以及团队当前技能集及团队在平台路线图方面对控制的需求。一些领域引领者,例如Adaptive Capacity Labs 的联合创始人 John Alspaw ,也提醒说不应忽视可恢复工程中人的因素,这事实上要比相关的工具更为重要。

更多信息,提供在 Gremlin 官方网站上,首届混沌大会将于2018 年9 月28 日在旧金山举行。

查看英文原文: Increasing the Resilience of APIs with Chaos Engineering

2018-05-28 15:402133
用户头像

发布了 391 篇内容, 共 156.5 次阅读, 收获喜欢 257 次。

关注

评论

发布
暂无评论
发现更多内容

阿里云 AI 搜索开放平台:RAG智能化工作流助力 AI 搜索

阿里云大数据AI技术

人工智能 阿里云 rag AI搜索 QwQ

开发者必备的这些API协议,Apipost都支持!

数据追梦人

CST表面等离极化激元SPP --- IMI有效折射率,截断边界模, 缝隙波导

思茂信息

cst电磁仿真 CST软件 CST Studio Suite

SpecterInsight 4 - 基于 .NET 的跨平台后渗透指挥与控制 (C2) 框架

sysin

渗透

龙蜥专家走进中国农业大学 分享如何驱动生命科学高效计算

OpenAnolis小助手

操作系统 龙蜥社区 浪潮信息 龙蜥高校行

瞧瞧别人家的日期处理,那叫一个优雅!

不在线第一只蜗牛

Java

金仓数据库 2025 征文大赛火热启动!丰富豪礼 + 技术曝光,等你来战!

金仓技术

征文活动 金仓数据库

防火墙事件日志及日志分析

运维有小邓

日志管理工具 IT运维服务

SANnav Management Portal 2.2.1 for ESXi - SAN 可视化管理软件

sysin

SANnav

Python 实战:用 API 接口批量抓取小红书笔记评论,解锁数据采集新姿势

tbapi

小红书笔记接口 小红书API 小红书笔记评论采集 小红书笔记内容采集

加密货币在去中心化云算力生态中扮演什么角色?

PowerVerse

加密货币 Token 去中心化云算力

PWA与小程序:技术架构、生态对比及全球化部署策略分析

xuyinyin

如何显示CAD图纸详细信息

极客天地

CAD图纸在天正中显示不全怎么办

极客天地

Tailwind CSS一些你需要记住的原子类

电子尖叫食人鱼

CSS 前端

用 AI 革新软件测试

俞凡

人工智能 软件测试

Java程序使用预处理语句的性能提升

秃头小帅oi

企业im有哪些? 哪款更适合你的即时通讯需求?

BeeWorks

即时通讯 IM 私有化部署 企业级应用

域名状态异常是怎么回事?怎么解决?(国科云)

防火墙后吃泡面

豆瓣均分8.5+,想提升效能水平的技术领导都在读(部分可下载!)

思码逸研发效能

团队管理 个人成长 读书 研发效能 思码逸

阿里云 AI 搜索开放平台新功能发布:新增GTE自部署模型

阿里云大数据AI技术

大模型 AI搜索 GTE

企业内部用IM软件:安全高效的企业内部沟通工具

BeeWorks

即时通讯 IM 私有化部署 企业级应用

如何灵活处理参数值?Apipost自定义函数功能让调试更简单高效!

数据追梦人

Acunetix v25.4 - Web 应用程序安全测试

sysin

Acunetix

VMware Cloud Director Availability 4.7.1 - 灾难恢复和迁移 (DRaaS 解决方案)

sysin

vmware

YashanDB|使用 select * 创建物化视图无法触发查询重写?问题出在这儿!

数据库砖家

数据库·

CAD命令行拖出来以后如何还原

极客天地

四川气象数据智能体示范应用入围中国信通院“开源大模型+”典型案例

ModelWhale

人工智能 大数据 大模型 中国信通院

日志易×DeepSeek:重新定义智能日志分析的「智」能边界

日志易

#日志易 #DeepSeek #智能日志中心

VMware Cloud Director Availability 4.7 - 灾难恢复和迁移 (DRaaS 解决方案)

sysin

vmware

Studio 3T 2025.7 发布 - MongoDB 的终极 GUI、IDE 和 客户端

sysin

mongodb

使用混沌工程增强API的可恢复性_DevOps & 平台工程_Daniel Bryant_InfoQ精选文章