写点什么

过渡架构的作用:一周处理近百起高严重性事件,如何重写这个技术负债系统?

  • 2021 年 6 月 24 日
  • 本文字数:2678 字

    阅读完需:约 9 分钟

过渡架构的作用:一周处理近百起高严重性事件,如何重写这个技术负债系统?

本文最初发表于 Medium 博客,经原作者 Zak Islam 授权,InfoQ 中文站翻译并分享。

 

导读:软件领域的圣经《人月神话:软件项目管理之道》,由 IBM System/360 系统之父佛瑞德・布鲁克斯所著,全书讲解了软件工程、项目管理相关课题,内容源于作者在 IBM 公司 System/360 家族和 OS/360 中的项目管理经验。这些经验概括出了第二系统效应,又称第二系统症候群,它认为,在完成一个小型、优雅而成功的系统之后,人们倾向于对下一个计划有过度的期待,可能因此建造出一个巨大、有各种特色的怪兽系统。第二系统效应可能造成软件专案计划过度设计,产生太多变数,过度复杂,无法达成期待,并因而失败。本文作者反思了他在 AWS 的时光,提醒后来者不要随意重写系统,而是要用过渡架构的方法来达到目标。

 

2015 年在 AWS,我接手了一款技术债累累的产品。在一个美好的一周里,我们共处理了 70~100 起高严重性事件。这个系统不具备基本的协议,如 API 速率限制、工作优先级、或者像隔离噪音邻居这样的防御功能,但是它很容易在一秒内处理上百万个请求。换言之,在它后面有一个巨大的集群,但是这很有用。在对这个系统进行首次评估的时候,我们真的不知道从何入手。摆在我们面前的挑战似乎不可逾越。我们知道重写系统是必要的,但是我们必须获得重写系统的权利。AWS 的一个核心工程原则是:

 

……工程师们感谢我们的前辈。我们赞赏工作系统的价值,以及其中所体现的体验。我们知道,很多问题本质上都不新鲜。

 

简而言之,它意味着尊重先前的事物。那时,我想我们并没有真正意识到,随着我们职业生涯的发展,这个原则将如何影响我们作为工程师和领导者的思维方式。

 

重写

 

在那个时候,重写系统的想法很有诱惑力。现在回想起来,我真的很高兴我们没有这么做。而在我后来的职业生涯中,我了解到这种诱惑有一个名字

 

第二系统效应(又称第二系统症候群)是指由于期望值过高和过度自信,小型、优雅而成功的系统往往会被过度设计的、臃肿的系统所取代。

 

虽然这个系统在当时处于一个不太理想的状态,但是它并不需要重写;它只是需要一点爱❤。

 

过渡架构

 

过渡架构实际上是迭代开发的一种漂亮说法。这意味着,要小步前进。回到这个系统:我们决定采取迭代的方法来修复我们所继承的“烂摊子”;将我们重写它的愿望搁置一边。我们有一座大山要攀登,但我们必须迈出第一步。首先,我们审视了所有的问题,然后创建一个图来排列这些问题。排列图看上去像这样……

 


这张图给了我们一种有趣的视角(图中数字系虚构)。一旦我们看到了上图中的根本原因,我们就知道系统存在两个大问题。我们需要在系统中加入速率限制,然后想办法扩展服务 X,这样它就不会在负载下崩溃。我们把小团队分成几个小组,集中力量解决这两个具体问题。我们承认这个系统的其他部分也是一团糟的,但是我们选择接受它们,因为我们知道这些问题为我们的客户解决了问题,但是却给我们带来了操作上的麻烦。几次冲刺过去了(感觉似乎是永恒的),我们最终实施了速率限制的第一次迭代。太棒了……是吗?错了!

 

迭代 1

 

我们的速率限制系统的第一次迭代是一个内置于部署到生产中的软件包的静态文件。这就是说,我们必须更新这个文件,对其进行签入,进行代码审查,进行构建,然后将其部署到生产中——就在事件发生的中间!那听起来很恶心,但确实有效!虽然我们并没有减少事件数,但是我们事件的平均修复时间(Mean time to resolution,MTTR)下降了一半。那是个巨大的胜利。

 

迭代 2

 

下一步,我们需要确定如何在生产中应用配置更改,而无需构建代码,然后进行部署。用 S3 桶中的文件的引用替换静态配置文件。接着,我们构建了一个独立的工具,它可以把变更从开发人员桌面推到这个文件(经过适当的检查和平衡),我们已经更新了服务,每隔几分钟就重新加载这个文件。这听起来似乎很简单,但是我们必须对它进行深入的思考。即使 S3 出现故障,我们也必须确保服务能够正常运行。我们必须确定服务是否会失败,是否对所有客户应用默认限制,最终处理整个集群的一致性,等等。这是很难解决的问题,但是我们花了很多时间来回答这些问题:因为我们知道迭代 1 已经用于生产。这样我们可以赢得很多时间。

 

迭代 3

 

最后,我们回答了所有困难的问题,将迭代 2 引入生产。对此,我们的胃口也越来越大了。虽然我们进一步降低了 MTTR,但是工程师们希望我们有一个能自动对传入的请求进行速率限制的动态系统。感觉到我们需要这个系统。为了更好地减轻我们的工作负荷,我们必须拥有这个系统。

 

为了构建这样的系统,我们需要:

 

  1. 一种低延迟的数据分配协议,用于报告来自整个集群中主机的按客户分列的请求速率。

  2. 一种半分散的服务,可以基于启发式方法作出某些决策。

  3. 更新请求限制的自动化系统。

  4. 对了,这种系统必须具有高度的弹性和容错能力。

 

我们考虑了这个系统的成本和复杂性后,决定不建立它。大家都认为,我们在迭代 2 中建立的系统足够好:它能提供我们需要的东西,运行良好,最重要的是它非常可靠。

 

完美的系统

 

我不时地反思我在这个团队中的时间,尤其是那些限制速率的项目。我们知道我们需要在某个时间点上进入迭代 3。如果我们从那里开始,我们会建立一个高度复杂的系统,它会检查所有的复选框,花费我们大量的时间,并且只返回我们正在尝试解决的原始问题的一些价值,同时在此过程中产生新的问题。

 

我们采用类似的迭代方法来扩展各种服务,在服务之间实现重试,并提高性能,以至于代码库仅与我们最初集成的代码库有相似之处。在管理运营开销时,我们不大可能重写系统。最后,我们会面临第二系统症候群,一个冗长的、团队士气低落的项目,以及新类型的技术挑战。运用尊重前人的原则鼓励我们欣赏工作系统的价值及其带来的经验。在我的职业生涯中,这是我获得的最有影响力的经验之一,我想把它传授给每一个愿意学习的人。

 

结论

 

我在这个团队的时光教会了我许多宝贵的经验。其中最重要的两条是:

 

  1. 避免重写的诱惑。从表面上看,重写系统似乎是避免固有复杂性的正确做法。当你欣赏工作系统的价值和它们所体现的教训时,重写往往就不那么吸引人了。(有时你必须重写一个系统。这很正常。当你不得不重写时,坚持复制有效的东西,要坚持有效的东西,做最小的必要改动。)

  2. 过渡架构——北极星固然不错,但往往应该仅仅是一个设想。迭代或过渡架构有助于消除不必要的复杂性,并提供一个足够好的解决方案。

 

这是从经验中学来的,我希望别人不必用艰苦的方法就能学到这些经验。

 

原文链接:

 

https://zakisaninja.medium.com/back-in-2015-at-aws-i-took-over-a-product-that-was-riddled-with-technical-debt-65b3670966e6

2021 年 6 月 24 日 14:492869

评论 1 条评论

发布
暂无评论
发现更多内容

前端 CSS 变量简介及基本使用方法

编程三昧

CSS css3 前端 样式

算法之异位词字符处理

Skysper

算法

Django-Task1笔记

IT蜗壳-Tango

IT蜗壳教学 6月日更 Datawhale

Java 字符串 split 踩坑记

mghio

6月日更

算法训练营 - 学习笔记 - 第十周

心在飞

「SQL数据分析系列」3. 查询入门

数据与智能

MySQL select

面试官嘲笑我,这你都不会?

我是阿沐

php 面试 redis cluster

让前端小姐姐愉快地开发表单

Daniel

vue.js 表单 动态表单 6月日更

Java中生成随机数的4种方式!

王磊

Java 随机数

Python——列表切片

在即

6月日更

springboot启动流程之加载入口类

梦倚栏杆

极光开发者周刊【No.0611】

极光开发者

【LeetCode】猜数字大小Java题解

HQ数字卡

算法 LeetCode 6月日更

【Vue2.x 源码学习】第十四篇 - 生成 ast 语法树 - 模板解析

Brave

源码 vue2 6月日更

回归分析

Qien Z.

6月日更 回归分析

实现一个执行Explain 命令的Mybatis 插件

water

Python训练营笔记 数据结构大汇总 Day5

万里无云万里天

Python 6月日更

架构实战营 - 模块6 - 作业

莫问

Pandas高级教程之:Dataframe的合并

程序那些事

Python 数据分析 pandas 程序那些事 数据分析研究

架构实战训练营 - 模块五课后作业

Johnny

架构实战营

标杆管理:让自己快速成长的实用工具

石云升

创业 职场经验 6月日更

NFTBomb热度非凡,持续在全球NFT世界释放影响力

区块链小八歌

小团队真的适合引入SpringCloud微服务吗?

xcbeyond

微服务 6月日更

算法训练营 - 知识总结

心在飞

【21-7】Grafana如何配置Thanos 查询历史数据

耳东@Erdong

Grafana Prometheus Thanos query 6月日更

色情,科技,与女性

脑极体

MySQL基础之十二:增删改

打工人!

myslq 6月日更

浏览器上有趣的Console命令都了解吗?

空城机

前端 浏览器 6月日更

视频号真人首播 - 踩坑经验总结

悟空聊架构

复盘 直播 视频号 6月日更

LeetCode 每日一题「接雨水」

陈皮的JavaLib

Java LeetCode 动态规划

假如我是创业公司CEO之电商小程序微服务拆分

ifc177

聊聊IO夯的那些事

聊聊IO夯的那些事

过渡架构的作用:一周处理近百起高严重性事件,如何重写这个技术负债系统?-InfoQ