
系统性思考提供了一种从复杂事物中提取简单但有用模型的方式,但我想只有少数人这么认为。也许是天性使然,也许是后天培养,但我们不会经常性地如此教导。
近期,麦肯锡一项关于 FinOps 的研究显示,69%的组织优先战略性举措而非高影响力策略措施。原因之一可能是这 69%的组织中多数没能意识到这些策略举措的存在,或对其重要性无感。
本文将延续作者发布于 Medium 的文章(从社会技术角度探讨云计算成本管理问题),分析如何通过系统性思考的视角,优先解决这类问题。
为什么要用系统性思维进行云财务管理?
任何组织或组织的一部分都可被视作是一个社会技术性系统,因为组织必定会雇佣具备特定技能的人,雇佣者为达成既定的目标而工作,遵循规定的流程、使用特定的技术,运作于一个基本的基础设施之上,且享有一定的文化规范。
因此,云财务管理是一个需要通过系统性地思考其社会和技术方面的社会技术系统。不过,在深入探讨之前,容我先介绍系统性思考的部分术语。

借助系统性思考,审视云财务管理
库存:在一段时间内累计信息或材料。在此语境下指云的成本。
流:由于流的运作致使库存随时间而变化。流入增加库存,流出减少库存。在此语境下指对云资源的使用和优化。
反馈回路:库存发生变化时,流会随时间变化。平衡的反馈回路可稳定库存水平,强化的反馈回路则加强这种变化。
既然“云财务管理”是社会技术性系统,那我们要如何才能带来变化?
在分析问题时,我们总会试图搜寻某些能让我们最大程度借力系统的地方,从而实现期望的结果。举例来说,如果需要抬起一架倒地的摩托车,那么我们不会随便抓住哪里开始使力,而是会根据摩托车的设计和自身力气,寻找最佳的着力点,用最小的力气最安全地将车抬起来。
复杂的社会技术性系统也是同理,Donnella Meadows 在她的《系统中的思考》一书中,提出了 12 处可进行干预从而最大化影响的位置。这些位置也被称作是“杠杆点”或“干预点”。
什么是对系统的干预?
系统干预是指刻意地改变或改善系统的行为、过程、结果,其中涉及对问题的识别以及实施用于改善系统整体运作的改动。
本文中将探讨所有 12 项干预措施,并详细说明每一项措施与云财务管理的关系,以及其对应的成本优化方式。

系统冰山:可见与不可见的干预
Donella Meadows 所介绍的 12 处杠杆点是以杠杆率递增排序的(从小至大),而按这 12 处杠杆点的影响范围,我们可以将其分为四类,即参数、反馈、社会设计、心智模型。
参数分类与系统中相对可见的部分有关,而反馈则是关注系统内部的动态;社会设计与系统内的社会性架构有关,而心智模型则是指相关人员的价值观、目标和心态。

12 处杠杆点(由低至高)
参数
12. 常量与参数
多数组织的运作都默认设定目标便足矣。但事实上,目标的设置是最无效的干预点,甚至有时设定目标会变得反直觉。举例来说,资源数量、使用时长、资源价格,为这些云系统成本的决定性参数设立目标便是一个杠杆点。
这一类的优化措施是为确保:
100% 的成本标签资源
0% 的闲置或僵尸资源
0% 的非营业时段的测试环境
100% 的成本预算定义
80% 的全部资源利用率
100% 为生产保留实例
参数往往无法有效地杠杆系统的行为,除非它能侧面撬动其他更高的杠杆点。这一部分我们将放在“目标”章节中详细介绍。
11. 缓冲
缓冲是指提升系统能力以应对进出流的变化。举例来说,提升技术水平、分配专门时间或额外员工,都可以增强团队的缓冲能力。
可提升缓冲能力的优化措施包括:
引入更多员工加入成本优化措施
为成本优化团队引入激励措施
为团队分配特定时间(如“优化的星期五”)用于成本优化
培养预测技能
引入 FinOps 专家为产品团队提供顾问
大部分的缓冲能力搭建不仅需要时间,还无法轻易改动,因此该杠杆点被排在了后面。
10. 库存-流动结构
系统中库存-流动的结构对其运作方式有着至关重要的作用。这一杠杆点是指通过建立或修改系统的结构(如基础设施、产品、流程),以问题处理的难度。
举例来说,云管理团队的结构、云的结构、 团队之间的责任结构均归属于与这一范畴。
这一杠杆点中所包含的措施有:
建立与业务方向一致的账户策略,以设定责任与所有权
引入 FinOps 工具以获取成本信息、闲置或未充分利用的资源信息、自动化等等
执行能力或成本的规划与评估
执行基于历史数据洞察的成本预测
库存-流动结构的改变往往不够快速或简单,因此该杠杆点被排至末尾。
反馈
反馈回路,系统的基本运行单元。—— Donella Meadows

反馈回路
9. 延迟
延迟是指相较于系统变动的速度而言,其改正所需的时间长短。这对系统的行为有着至关重要的作用,延迟会在我们期望达成的目标与当前状态之间产生震荡。
举例来说,如果团队只能在月底获得成本超支的消息,那么优化措施将只会存在于一个月度周期内。同理,对反馈信息的回复也应即时无延迟。
可减少系统延迟的措施包括:
定义成本阈值与告警,一旦超出阈值,相关团队能即时收到提示
设立资源使用情况面板
设立成本追踪面板
采用自动化以缩短成本告警时采取行动的响应时间
系统的延迟若可变动,则一旦变动必然带来巨大影响。
8. 平衡的反馈回路
平衡的反馈回路是根据库存的实际与期望等级间的差异,使系统维持于一个安全范围内。加强平衡反馈回路主要为提高系统的自我修正能力。
任何平衡的反馈回路都包含一个目标、一个校验是否偏离目标的观察者,以及一个反应行为。
用于强化系统的自我修复能力的方式包括:
自动化内务资源管理(孤儿或未标记)
自动化成本异常监测及响应措施
设立成本预算告警
自动化执行标签策略
自动化比率优化(预留、节省计划、竞价实例)
自动化开销预测
自动化提出合理规模建议、实例购入建议
设立调度策略及自动扩展策略
自动化云开销面板与开销报告生成
一项 FinOps 工具便可包含上述列表中多半的自动化。
7. 强化反馈循环
强化反馈回路是为让系统增长或崩溃的回路,其运作得越多,所能发挥的作用也就越大。强化反馈回路存在两种类型:恶性循环与良性循环。
云计算中,恶性循环会出现于 DDoS(分布式拒绝服务)攻击期间,攻击流量触发资源得自动供应,招致更多攻击流量,又因更多资源的供应重启了这一循环。这种指数级的资源用量最终会导致庞大的账单金额。即使是性能测试脚本的错误也可能导致这类情况的出现。
可用于限制这类强化循环增长的步骤包括:
为可配置资源设定配额限制(最大用量)
识别并保护资源免受 DDoS 攻击
在自动扩缩容策略中设置合理的限制
实施有效的云财务管理可能会触发良性循环,即成本的节省会导致云服务投资的增长,从而提升整体价值,为开销优化带来更多动力,从而实现更进一步的成本节约。
任何不断增长的系统都会走向自我毁灭,系统稳定的更好方式是削弱其强化回路。
社会设计
6. 信息流
正确的信息流导向可带来非常不同的结果,这是与参数调整、加强或削弱已有反馈回路所不同的一点。此处,我们需要将反馈信息层层传递给能立即采取适当行动的人。
以下这些措施可用于改善信息流的结构:
首先,在团队层级对成本进行拆分,定期将成本报告发送至对应团队。这一举措会提升成本可见性,并在团队之间建立起问责制
其次,允许产品团队中每名成员访问云支出面板
在财务、应用或运维、业务团队间建立一个操作的节奏,以改善合作并建立期望
由于这类干预是通过提供缺失的反馈信息以建立问责制,Donella 认为这类干预的热度大于强度。
5. 规则
规则构成了更高的杠杆点。标准、准则、策略都可被称作是“规则”。举例来说,架构决策者需要预先签订设计和架构,才能开始代码的编写。
可利用这一杠杆点的措施有很多,其中包括:
确立一个明确的账户和标签策略
在 IaaS、PaaS、SaaS 等诸多托管模型中确立一个托管策略
建立一个 FinOps 专家中心以制定标准与准则
制定策略以定义每项应用程序的成本预算
定义 Showback 与 Chargeback 的流程
4. 自组织
自组织是一项可使系统进化的强有力干预措施。这一干预是等同于系统中任何杠杆能力小于其的改变的总和,其中就包括规则、物理架构、信息流等等。
部分可采用的措施包括:
组建一个 FinOps 专家中心,由产品团队成员在其中贡献标准与准则
授权产品团队在 FinOps 专家中心对其优化措施进行顾问而非审计
授权产品团队对其产品的成本预算进行定义
制定有助于发展与维持系统内自组织的规则是一项强有力的干预,而制定这些规则的权力应下放给团队。
心智模型
3. 目标
目标是远比库存-流动、反馈回路,甚至是自组织都要更高层级的干预,即使上述其他所示都已到位,错误的目标也会带来非常不同的结果。因此,用更高层的目标调整系统会带来更好的结果。
可用于改善成本管理系统目标的措施之一,并不是控制云支出,而是去寻求提升云消费的价值。根据这一更高层的目标,托管策略可根据工作负载在组织价值链中扮演的角色,进而制定模型托管的策略转变。举例来说,面向客户的核心业务流程应用作为差异化产品,即使成本增高也应托管在 IaaS 上,但属于价值链中支持性业务流程的应用程序则应托管在 PaaS 或 SaaS 中,从而带来更低的成本。
单位经济学是衡量云支出价值的一种方式。举例来说,物流机构中,无论包裹数量是增是减,处理单个包裹的云成本都会反映出包裹处理的实际成本。每个包裹的成本这种单位成本指标可用作优化举措的指南针,指引我们提升云消费价值的方向。
2. 范式:思维方式
无论是系统的目标、规则、延迟,还是参数,这些都是由一个思维方式衍生而出的,即系统的范式。因此,这个杠杆点,或者说思维方式的转换,是能够开启其下整体系统转变的。
人们往往认为范式的转变是难以达成的,但思维方式的转变其实只需要一瞬间的意识。云支出管理需要从管理企业内部基础设施时便存在的思维方式进行转变。
以下是可以实现思维方式转变的一些措施:
在高度可见的职位与权力方面,引入具备新思维方式的云或 FinOps 专家团队
领导层应将成本看作是适应度函数的形式,谈论基础设施管理的新方法
一些应被抛弃的错误观念或思维包括:
云上和企业内部的托管或设计工作负载的方式是相同的
云永远比企业内部基础设施便宜
1. 超越范式
范式不是一成不变的,我们需要超越当前的范式。此处,云即是我们目前的范式,但这并不是最终的结果。
我们需要超越云支出优化的思维,将其看作是基础设施支出方面的优化。从这个角度出发,我们会发现许多其他选项,正如 Dropbox 于2016年所做的(他们目前的状态),将其主要工作负载从公有云迁移至协同定位设施,从而在两年内节省了近 7500 万美元,毛利率也从 33%增长至 67%。对 Dropbox 而言,公有云在早期确实廉价,但会在后期公司发展中带来逐渐增高的成本。
结论
需要注意的是,杠杆点越有效,其所变动时所面对的阻力也越大,也就是说,位于更高杠杆点的措施将在实施时遭遇系统中更大的阻力。
在本文中,作者探讨了在改变云财务管理系统的进程时可进行干预的方面,也探讨了每一处干预点的有效性。但如何进行干预还是取决于看官您,因为每个系统都是独一无二且不断发展的。祝万事顺利!
查看英文原文:12 Places to Intervene - Rethink FinOps Using a Systems Thinking Lens
评论