【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

谷歌的反“背锅”文化

  • 2023-08-11
    北京
  • 本文字数:6023 字

    阅读完需:约 20 分钟

谷歌的反“背锅”文化

这个“锅”,谁都别背。

 

谷歌最早在 2003 年就提出了 SRE(Site Reliability Engineer,站点可靠性工程师)概念,经过 20 年发展,SRE 不仅是一个岗位,更是一个体系化的工程,并已逐步在越来越多的大型互联网公司落地。

 

日前,谷歌 SRE 工程师 Michelle Brush 在 InfoQ 英文站发表视频演讲,分享了谷歌 SRE 工程的关键策略——反“背锅”文化。Brush 认为,反“背锅”文化并不是完全对个人无问责,而是构建一种持续改进的文化,并赋予人们权力,创建一种能让正确行为持续发生的环境。

问责:以结果为驱动就是对的吗?

 

构建反“背锅”文化的第一步,是先明确“问责”二字。

 

不少互联网企业会经常提到“问责”二字,但实际大家对“问责”的理解并不一致。有人认为“问责”是指因为错误的决定而受到惩罚,或者是必须面对自己行为的后果。Brush 则认为,“问责”是组织保证你会被根据自己为所负责的事情而做出的相关行为,所产生的后果进行评估

 

这里面每个关键词都有其存在的意义。比如保证、负责、行为三个关键词代表了组织的保证。在组织与个人之间存在某种信任或合约,保证评估不仅是根据结果,还会根据其在需要承担一定责任的情况下做出的行为。这些要素都很重要,不能只挑其中两三个执行。

 

然而在实际工作中,有些组织忽视保证、负责、行为,只关注后果、评估,试图将重点放在对员工的评估上,仅根据结果对决策进行评估。这种情况通常会出现在那些自称“以结果为驱动”的组织中。有的组织自称“以结果为驱动”是在试图表明自己会在工作的开展方面给予员工自主权,不会微观管理或过度规定;有的则会通过这句话表明自己在乎的有且仅有结果,不在乎是这个结果是如何达成,中途又断了多少退路、错待了多少人。

 

知名牌手 Annie Duke 曾在《用赌注思考》一书中提到组织中的领导者和扑克玩家在早期常见的一种糟糕的倾向——“结果论”——无论行为如何,都将决策的好坏与结果挂钩。如果一家组织只看得见结果,那他们永远没法真正学到东西,因为在任何事中都有运气的成分存在。

 

Brush 认为,世界很复杂,系统很复杂,组织也很复杂,大家没办法掌控所有变量。有时会相信通过概率、可能性或是一些侥幸,才能让事情完全正确或完全错误。这种情况下,如果只评估结果,那么你会对组织以及什么可行、什么不可行有非常糟糕的理解。这也是为什么我们需要看得见所有要素,需要在评估的过程中包含结果和行为,而组织也需要保证他们会看重所有的要素。

评估与提升:将行为和结果相结合

 

如果企业不以结果为驱动,那么该评估员工的哪些行为?如何判断行为的奖惩?

 

Brush 认为,这是价值观的问题。组织或团队都会有价值观,比如更重视交付速度、成本降低,或者是创新等等。公司通常会从这些价值观中衍生出一些规范,让员工明白哪些个人行为在这个价值体系中占据了一定地位。如果重视这些行为,确实能带来良好的结果。反之,如果还是只看重结果,不仅看不到什么该做、什么不该做,甚至可能还会遇到这样的场景——人们会因为做了自己想要的事而得到奖励,而不一定是因为做了正确的事而被奖励。

 

如果只按照行为奖励,比如“不相信结果,我只想确保人们永远在做对的事,我要为此奖励他们”,那么你很可能让组织的创新和效率为此受损,因为你周围的世界会不断变化。如果你一直在做自认为可行的事,那么即使这些不再能行得通,你也不会注意得到。

 

将行为和结果相结合后,如何再进一步提升?

 

Brush 认为,要想提升工作,就要去回顾成功的经历,要知道在自己的系统中,什么算是成功,一切顺利时又是什么样的?目前有哪些行为?如何持续?如何重现?如果没法重现,就要看员工每天都在做什么,是有他们的什么行为保证了成功的发生?接着,还要仔细地观察并思考,假设如果停止这些行为会发生什么?结果会有什么变化?人们不再进行这些行为之后组织会有什么变化?

 

这样做的目的是小心幸存者偏差,不能只关注正向结果,认为所有导致正向结果的事情都必然是实现正向结果的一部分。此外还要关注险些成功的场景,要知道是什么让你侥幸避免了一场灾难的发生,并确保这些幸运能够重现。还要关注事故、错误、意外、中断场景,并扪心自问,情况是否会变得更糟?没有变得更糟是因为侥幸吗?如何做得更好?不从预防发生的角度来看,而是如果这类事情再次发生,组织将如何采取不同的应对措施?组织要如何更好地确保每个人都能在这个时间点上做正确的事?

 

在过去,Brush 见过不少类似的情形:组织在分析时花了太多的时间考虑要如何阻止事情发生,而忘记了人总会犯错,软件总会有缺陷,硬件总会出故障,过度地预防会让人失去对组织中软件更为弹性的丰富理解,而这才是大家真正想要的。此外,如果人们花费了过多时间在预防上时,可能有时会不慎回到根因分析的模式中。

根因分析:一定要找个“背锅”的人吗?

 

提到根因分析,有人认为,若想在组织中实行问责的制度,就必须让人们为自己犯下的错误负责。Brush 在职业生涯早期时也是这么做的,但她发现,这种观念的本质是,我们期望那些导致不良结果的行为或决策的参与人,成为推动解决方案的人。无论是否有意,我们都是将追溯总结视作了惩罚。

 

这是因为要想让一切运转起来,就需要找到一个“背锅”的人,一个承担责任的人。要做到这点,有时候得将一切过度精简到一系列的事件,从而找到一个决策点,这样所有人都能一致认为这个决策点才是问题的根本所在。之后再找到是谁该为这个决策点负责,并将其称之为是“根因”。

 

为了保证这类事件不再发生,企业把工作任务交给背锅的人,让他们写报告,把所有事情都承包了。很多时候,除了这些工作,企业还会再加上一些可怕的流程,比如到领导面前解释发生的一切,可能还会再挨上两句骂。所有这些,无论有意与否,本质上都是惩罚,都是行为的后果。

 

这并不是一个好方法。在人们犯错时给予惩罚,通常会导致他们在犯错时不告诉你,“找根因”又会让一切变得更糟。因此,不能一味地认为追究责任就是让造成问题的人去解决问题,去写解决问题的方案。

 

这又引出了关于大棒与萝卜的讨论。每个组织都有各种宏观和微观的奖惩措施,这些奖励是萝卜,而后果则是大棒。多数时候的后果和行为管理期望都是如此,为不顺利的事情承担后果,为顺利的事提供萝卜或奖励。

 

那么问题来了,惩罚真的有效吗?这其中有很多研究和探讨的空间,但一般来说,答案是否定的,正向增强往往比负向增强要更有效。要想在组织中建立正确的行为,你得有正确行为的标榜。你需要体现出组织鼓励正确的行为,但不一定要建立惩罚或后果文化,因为后者会导致人们不想惹麻烦而对你有所隐瞒。

 

每个人都有自己的平均表现,在行为进行或结果实现的过程中,处处都存在可变性。对于平均表现水平而言,如果有人在长时间内将一切都做到好,那么在另一段时间内这个人大概又不会做得很好。这种是符合人类表现的钟形曲线的。



有趣的是,真的有人在试图解决故障或事故时踩过这个坑。他们在做事故分析时,可能会想出一个绝妙的主意,比如说通过减缓发布速度或者添加额外审查之类的,试图避免这种事故在未来重演。而在落实这个主意后,一段时间内事情似乎是在向好的方向发展,但这也是在复杂度与曲线的拟合,一切只是又在向均值回归而已。

 

此外,幸存者偏差也存在于这种场景下。如果我们光是看到进展顺利的事情,就称这种行为或结果致使了事情的正向发展,那么我们其实是忽视了在同样行为下,进展不顺利的情况。一般来说,正向增强胜过负向增强,为了让人们做正确的事,我们宁可要奖励也不要后果。

 

这背后,其实更关键的是内在动力胜过外在动力。让人们因为对自我的认同感而去做正确的事,而不是依赖外界的奖励或后果,这样可以提高成功率。但即使在我们发现了这种模式并试图改变行为从而获得不同的结果,或者说是组织想要学习并做出不同的举动,激励方式也不应该是在员工做出正确行为时立刻给予奖励,或者是在他们没做对时立刻进行惩罚。我们实际想看到的是如何为员工创造动力,让他们能自发地去做这些事。

 

《如果你非常聪明,为什么你不快乐?》一书中提到,人们处于一种流动感时会感到快乐。流动感也就是我们所说的状态,本质来说就是人们效率超高且完全沉浸于工作之中的时候。我们能给予人们的流动感越多,便越能让人们想要去做正确的事。也是就是说,对这种流动感的破坏越大,人们就越容易做错事,因为我们没有为他们创造动力去做正确的事。如果我们想要激励人们去做对的事,我们需要想明白该怎么从这一角度入手,怎么利用这四点(目的、自主、掌控、流),让人们自发愿意去做正确的事。

 

在《如果你非常聪明,为什么你不快乐?》这本书中,还探讨了人们会因为什么才会更快乐。人们不会因为升职加薪或是其他什么原因而更快乐,因为这类事情发生的频率太低了,所以它们不是个好的激励因素。通过对比得来得快乐或幸福也是非常短暂的,因为你很快便会常态化现在的处境。你需要减少对这方面的关注,而将驱动力视为重心。但这也不意味着你不该给员工升职加薪的机会,升职加薪还是该有的,但却不该是驱动员工每天做正确事的动力。

 

除了对升职加薪这些短时效性奖励的过度依赖,有些企业会对目的过度依赖。

 

Brush 曾在一家医疗机构工作过,这家机构常常会把医生或护士请来,给工程师讲讲糟糕代码的后果,比如代码错误可能导致病人死亡,试图借此让工程师们写出质量更高的软件。或许企业会以为这样能激励工程师,给大家一个强烈的目标和使命,大家就会自然而然地做正确的事。但这实际上,这样的方式非常打消大家的积极性。一是这会让大家产生焦虑,大家只想尽可能降低自己的责任,减少对发生结果的内疚感,出事了也不会被指责;二是这会让大家感到愤怒,这是在居高临下地暗示大家,写这个软件的原因不是构建系统需要优化,也不是需要更好的测试工具,而是在说“你们不了解情况,如果我们愿意告诉你怎么做,你们才能做得更好”。

 

因此,企业不要把奖励看作是为了让人们做出正确事而悬在他们头顶的萝卜,而是用日常或更为频繁的奖励以填补晋升或补贴周期之间的空隙。人们其实非常喜欢惊喜和愉悦的事。在 Brush 负责的一个项目中,人人都在为追赶进度加班加点,Brush 为了表达对项目中大家努力工作和性能提升的感激之情,给所有的人都买了一辆 Hot Wheel 小车。直到今天,Brush 还能收到大家的消息,告诉 Brush 他们在清理橱柜时看到了这辆小车的图片。

如何理解反“背锅”文化?

 

Brush 认为,反“背锅”实际是指构建一种持续改进的文化,或至少要与持续改进的文化相辅相成,而建立这种文化则必须赋予人们权力,创建一种能让正确行为持续发生的环境。你需要奖励提升而不是一成不变。

 

比如,有时组织里会设置一个高不可攀目标,然后等到人们达成这个目标时才给予奖励。但这会导致人们缺乏改进的动力。状态好的人达成了目标后会开始摸鱼,毕竟他们已经完成了任务,而离目标还有十万八千里的人可能会觉得这个目标太难了,他们下辈子都没办法完成,并最终放弃了实现这个死目标的动力。

 

企业希望能奖励改进,为发展和探索留出时间,让人们能够发挥创造力,拥有掌控的能力,拥有用不同方法完成任务的自主权。此外,企业也要不断去寻求并听取反馈意见,寻求批评建议,让批评成为文化的一部分,真正地去奖励改进,变得更好和保持很好都是可以接受的,即使是做到最好的团队也应该寻求建设性的批评和反馈。

 

有些人太害怕去责怪他人,他们其实并不想去批判性评估任何决定,只想假装一切正常,或者只想创建一个只会做对事的环境。这两种原因相结合,就形成了“不健康的积极”——组织所创建的文化中,只希望看到进展顺利的事情,就好比是“不允许失败”的文化。这样的结果就是,人们不再鼓励或直接拒绝建设性的批评。

 

在只鼓励积极信息的环境中,人人都在赞美他人或者认为一切都很顺利、都很好,一旦有人站出来说事情其实进展得并不好,有需要面对的风险没有解决,会有问题出现,那么这个人就会被这种文化所制裁。因为在这种文化内,没有人会这么做,也没有人会去提及这些东西。而如果人们会因为提出风险或者承认失败而受到惩罚,那么他们也将被要求对任何决定做出毫无转圜余地的承诺,只能承诺不能否定。这会导致非常不健康的积极环境。

 

比如,有些企业的文化是“要想反对,必先提议”。这听上去没什么问题,要是有人想提出一个风险点,那他们肯定不能光是嘴上说说,他们得给出正确的做法,给出解决方案。但这么做的问题在于,人们能发现风险点,但这不是他们的工作内容,他们有自己的任务,也有其他的工作,他们只是正巧发现了某些事情可能会进展不顺。

 

这种“要想反对,必先提议”的文化会将解决问题的重担压在提出问题的人身上,指出风险点意味着工作量的增加,意味着额外的工作内容,人们不会想为额外的项目而操心。千万小心不要创造出这种有风险提出者承担解决责任的环境,听取批评性反馈可以,建设性建议则是更好。当然,即使是没有具体的实施计划,建设性建议可能会改善组织或系统的整体成功。

 

要想正确地做到反“背锅”,需要具备一种“容许框架”的素质,也就是说,你必须要认可他人的能力,要默认他人是能够做对事的。扪心自问,是什么让这个决策在当时看来是最优的选择?在人们面对困境时,所有制约因素都自相矛盾,也许他们时缺乏特定技能,也许他们具备应有的技能但系统却是一团乱麻。他们或许不知道该怎么办,只是试试看会有什么结果。错不在他们,也不是他们做出了错误的决策,只是系统如此,他们别无他法。

 

很多组织会将其归结于缺乏培训。一些组织花费了大价钱编写培训内容并让所有员工都去上课,祈祷着人们能记住教训,并在下次同样的事情发生时能长记性,但同样的事并不会再次发生。不要指望通过培训让人们掌握所有知识并做出正确的决策。相反,应该从系统的角度思考问题,人类作为系统的一部分,他们在创造、使用技术,他们身处特定环境之中,有自己要遵循的制度和程序,也有企业所制定的激励措施。这所有的一切都由反馈回路相连,从而形成一个庞大的社会技术系统,允许人们各行其是。

 

在明白这点后,企业可以进入与人相关的讨论,找出哪些部分需要调整才能让下次的结果更好。有的时候答案是技能的开发,有的时候则是因为企业送员工走上了失败之路,因为企业对员工提出了要求,却没给他们准备的机会,在后者发生时默认地选择线上或导师培训,这些项目的投资回报率非常低。

写在最后

 

总的来说,反“背锅”的最终要诀,其实就是评估行为和结果,而不是二者选一。你需要回顾进展顺利、勉强成功,以及进展不顺的事情,而不是紧盯着那些进展糟糕的事,需要避免因果律信条和根因分析,确保没有将一切过于精简从而导致问责式结局。

 

如果企业希望人们能认领解决方案并做对事,应当使用目的、自主、掌控以及流,这些才是人们日常工作的动力源泉。企业需要创建持续改进的文化,消除由可视性驱动的规则、规定和衡量标准。最后,将决策转移到信息方向,而非反向而行。

 

原文链接:

https://www.infoq.com/presentations/blameless-accountability/

2023-08-11 14:186910

评论

发布
暂无评论
发现更多内容

我的编程之路 -7(T型人才)

顿晓

T型人才 编程之路

不同层次格局的差异

kimmking

重学 Java 设计模式:实战桥接模式(多支付渠道「微信、支付宝」与多支付模式「刷脸、指纹」场景)

小傅哥

设计模式 小傅哥 重构 代码质量 桥接模式

9种 分布式ID生成方案,我替你整理好了

程序员小富

Java MySQL 分布式

ARTS - Week 2

Khirye

ARTS 打卡计划 arts

ARTS-week1

书生

Vue&SpringBoot前后端项目分离构建

夏悸

Spring Boot Vue 大前端

原创 | TDD工具集:JUnit、AssertJ和Mockito (十八)编写测试-测试执行顺序\嵌套的测试

编程道与术

Java 编程 TDD 单元测试 JUnit

自学技术看这些网站就够了!

我是程序员小贱

学习

ChaosBlade:从零开始的混沌工程(一)

郭旭东

云原生 混沌工程

极客大学架构师训练营 听课总结 -- 第一课

John(易筋)

极客时间 架构 极客大学 架构师 极客大学架构师训练营

不到100行代码的iOS组件化你怕了么?

毒手疯波

ios 组件化 url scheme scheme

如果我能找到工作,那么你也行

escray

架构师训练营-第一节

Geek_af3d01

人人都能看懂的 6 种限流实现方案!(纯干货)

王磊

Java 「Java 25周年」 Java 25 周年

白话说流——什么是流,从批认识流(一)

KAMI

大数据 flink 流计算

地摊经济一千年:从《韩熙载夜宴图》到木屋烧烤“撸串”

punkboy

产品经理 商业 新闻动态 新基建 地摊

初识软件架构

陈皮

Architecture Architect

RUST IN BLOCKCHAIN 五月简报

Aimee 阿敏

rust crypto blockchain

别再说你不懂Linux内存管理了,10张图给你安排的明明白白

程序员柠檬

Linux 后台开发

分布式场景之刚性事务-2PC详解

奈学教育

分布式 2PC

【写作群星榜】5.29~6.4写作平台优秀作者&文章排名

InfoQ写作社区官方

写作平台 排行榜 热门活动

六处提及区块链!海南自贸港区块链产业应用先行,与“币”划清界限

CECBC

区块链技术 海南方案 严控 产业

使用Nginx防止IP地址被恶意解析

Noneplus

nginx 恶意解析

CDN百科第三讲 | 如果用了云服务器,还需要做CDN加速吗?

阿里云Edge Plus

CDN

装饰模式——看JDK和Spring是如何杜绝继承滥用的

大头星

Java spring jdk 面试 设计模式

绝对坦诚:打造团队自我进化能力的最佳姿势

伴鱼技术团队

团队管理 企业文化 团队协作 技术管理 文化

分布式事务 - 分布式事务框架Seata

Java收录阁

分布式事务

2020.06.04,我在《架构师训练营》的学习历程:架构方法

程序员二师兄

极客大学架构师训练营

有时候爱也是一种负担

小天同学

日常思考 爱情 个人感悟

观察者模式——窥探JDK和Spring中的设计模式

大头星

spring jdk 面试 设计模式 Java 25 周年

谷歌的反“背锅”文化_Google_马可薇_InfoQ精选文章