
在旧金山 QCon 会议上,HeartFlow 的工程副总裁Sonya Natanzon分享了在接手了一场灾难性的身份迁移后,主导恢复过程的教训,这场迁移在第一天就导致了用户锁定,使他们无法访问医疗门户的网站。她的五个来之不易的教训揭示了成功的架构恢复同样依赖于感知管理和团队动态,而不仅仅是技术实力。
Natanzon 接手的烂摊子源于一个为期九个月的项目,它将一个医疗门户网站从单体架构迁移到了微服务,并使用了商业性的身份提供商(identity provider)。发布之后,系统立即崩溃了,所有用户均被锁定。原来的工程负责人已经离职,信任荡然无存,Natanzon 接手了这个烂摊子,她面临着一个关键的问题:如何在恢复系统稳定性和团队信誉的同时,交付迁移所承诺的价值。
她的第一个教训强调,需要平衡项目进展和损害控制。对于用户来说,团队需要展示门户网站在他们需要时都是可用的。可靠性胜过创新。对于业务合作伙伴来说,团队必须证明他们可以在不孤立追求技术完美的情况下,平衡架构改进和具体的业务价值。Natanzon 的战略决策是不会再有“大爆炸”式的发布:大型的功能发布会延迟业务价值,而业务价值才是推动公司前进的驱动力。
Natanzon 鼓励与会者要不断平衡功能对等与新的业务价值
相反,她主张采用增加透明度方式的增量交付,公开和清晰地沟通工程相关的工作以重建利益相关者的信心,这就是她的第二个教训:放到聚光灯下。与团队之前的行事方式截然不同,Natanzon 倡导积极沟通进展、挫折和现实的时间线给利益相关者,因为对挑战的透明度比防御性的姿态能够更有效地建立信任。
她的第三个教训挑战了传统智慧:现在就做得更好,而不是指望未来。从失败中恢复的团队经常感到压力,难以构建健壮和能够证明未来的系统。Natanzon 坚持不同的方法:为即时需求构建,并无情地削减系统中不提供具体业务价值的组成部分。这种务实的焦点使团队能够迅速展示有形的改进,而不是陷入架构完美主义。
第四个教训直接解决了感知管理的问题。技术团队经常将对感知的担忧视为表面现象,但 Natanzon 认为感知直接影响了团队的执行能力。负面感知往往比导致这种感知的长期问题本身更持久,摆脱它们是一个漫长而乏味的过程。此外,感知是感性的,所以冰冷的数据不一定能改变它。她建议建立良好的关系,持续与利益相关者互动,并尽快解决感知到的问题。
负面感知往往比导致它们的长期问题更持久
她的最后一个教训:关注团队。技术不是架构灾难恢复中唯一的患者,团队也是一个患者。Natanzon 通过更好的文档和良好的入职实践稳定了团队,然后从根本上将文化从知识孤岛和个人成就转变为合作、透明和团队成功。有趣的是,最初失败导致的高流失率实际上使实施文化变革变得更容易。
在更广泛的层面上来讲,这次经历强化了微服务迁移的行业教训。正如InfoQ以前的报道所述,组织经常低估拆分单体系统的复杂性。Natanzon 的恢复剧本为从业者提供了比避免失败更有价值的东西,也就是一个模板,用于在架构倡议经历灾难性的错误时,如何有效地进行响应,我们需要认识到仅靠技术解决方案无法挽救已经失去组织信任和团队凝聚力的项目。
原文链接:
Five Hard Lessons from Recovering a Catastrophic Microservices Migration







评论