写点什么

如何通过数据驱动的对话文化支撑平台工程

作者:Ben Linders
  • 2026-06-10
    北京
  • 本文字数:2320 字

    阅读完需:约 8 分钟

慕尼黑开发者大会的演讲《From Legacy to Sovereignty: Driving the Future of Insurance through Platform Engineering(从遗留系统到数字主权:以平台工程驱动保险业的未来)》中,Sergiu Petean 介绍了他们如何通过组织变革来提供 SRE as a Service。团队不仅建立了卓越中心,还引入了联邦式 SRE 模式,以及生产经理和技术部落负责人等新角色。在此基础上,他们逐步形成了一种以数据驱动对话为核心的工作方式,让 SLO 和 SLA 不再局限于少数技术团队,而成为整个组织共同关注和讨论的指标。

随着平台规模不断扩大,团队面临的认知负载也持续增长。Petean 表示,应对这一挑战的关键在于持续简化架构,并将主权性(sovereignty)和韧性(resilience)纳入每一项平台设计决策之中。

Sergiu Petean 在《Driving and Measuring the Impact of Platform Engineering(平台工程的价值创造与效果衡量)》中表示,平台工程不能只从技术角度来看待,而应该从社会技术系统的视角出发,由所有利益相关方共同参与塑造,而不仅仅是开发团队。他认为,一个成功的平台需要建立一套明确且成文的原则。这些原则既要能够经受组织和技术变化的考验,又要把“变化”本身视为设计中的核心因素,从而帮助团队更高效地构建、运行和交付软件。

在平台演进过程中,为了提供 SRE as a Service,他们专门组建了一支 SRE 团队,负责重新设计整个可观测性体系。Petean 表示,定义流程和选择工具并不困难,真正困难的是如何与使用这些新服务的团队建立有效协作:

我们必须把自己打造成为一个卓越中心(Center of Excellence),帮助整个组织学会如何将自身需求融入自动化流程,并让整个反馈闭环真正运转起来,为他们创造价值。

与此同时,团队开始从运维和业务两个维度衡量平台建设的成效。在运维层面,他们采用 DORA 指标;在业务层面,则重点关注每次变更成本(cost per change)。Petean 提到,在推动 SRE 转型的过程中,他们还建立了一系列新的机制和角色。

  • 联邦式 SRE。这是一个由软件工程师组成的内部社区,参与者会将大约 20% 的时间投入到运维相关工作,包括漏洞管理、SRE 实践、SLA 管理、CI/CD 能力扩展以及 API 建设等。

  • 新角色生产经理(production manager),负责统筹整个事件管理流程,包括事件报告、响应处置、持续改进以及 SLA 管理。

  • 技术部落负责人(technical tribe lead)。这类人员直接与业务负责人协同工作,在业务决策与技术执行之间建立连接。

Petean 认为,仅仅设立这些岗位还不够,更重要的是赋予他们足够的影响力。他们需要能够直接与工程师沟通,推动团队关注业务和运营真正关心的问题,并成为平台理念的传播者。他说:

通过 SRE 实践以及新的联邦式 SRE 角色,我们逐步建立起一种以数据驱动对话的文化。在这种文化下,SLO 和 SLA 不再只是少数运维团队关注的指标,而成为整个组织共同讨论的话题。

这也让联邦式 SRE 能够更好地关注成本、安全、性能和合规等业务目标。他们成为连接平台团队与业务团队的桥梁,并帮助我们推动一项重要原则——每个业务团队都必须拿出 20% 的投入用于平台能力建设。

后来,在构建面向 AI 云原生架构的参考平台时,他们的平台团队逐渐演变成一个需要同时管理多个平台的团队,但团队规模却并没有得到同步扩张:

我们需要靠同样一批人同时维护多个平台,但我们的团队规模和人才结构基本没有变化。平台工程团队面临的认知负载达到了前所未有的程度。

他认为,平台团队不只是技术支持部门,更应该成为组织数字化能力建设的重要推动者。这种影响力不仅涉及技术本身,也涵盖业务、系统集成、安全、合规以及运营模式等领域。面对不断增长的复杂度,唯一可行的办法就是持续简化。他说:

我们的架构至少被推倒重建过四次。每一次变化我们都会主动利用起来,无论是创建新的租户、支持新的业务线或项目,还是迁移到云端。这种做法对我们非常有效。因为它给了我们一个机会,去改变那些平时几乎不会被触碰的东西,比如平台架构本身。

Petean 强调,主权性(sovereignty)和韧性(resilience)不应该只是架构评审时偶尔提及的话题,而应该贯穿于平台设计的全过程。在设计下一代平台时,团队需要提前思考自己的主权策略。例如,如果未来需要从某家超大规模云服务商迁移到私有云或自建数据中心,这一过程需要多长时间、需要付出多少成本,都应该在设计阶段就有所规划。他最后总结道:“数字主权已经不是可选项,而是必须认真考虑的问题。”

在随后接受 InfoQ 采访时,Petean 进一步谈到了变更成本和数字主权的话题。

InfoQ:你们是如何降低变更成本的?是什么因素带来了这种下降?

Sergiu Petean:这是多个因素共同作用的结果

- 平台效应。随着平台逐渐成熟,我们能够在不增加计算资源成本和人员成本的前提下,承载更多服务和租户。

- 团队能力的成熟。随着越来越多资深平台工程师成长起来,团队整体拥有了更强的全局视角和更高的生产效率。同时,良好的团队文化也让他们保持了 100% 的人员留存率。

- 联邦式 SRE。从第一天开始,我们就将平台设计为自助服务模式,并持续投入大量精力进行知识共享和能力赋能,让业务团队能够自主完成更多工作。

- 业务规模本身的增长。随着公司进入更多市场、服务更多客户,平台建设成本被更大的业务规模所摊薄。

InfoQ:企业要如何实现主权性并提升系统韧性?

Sergiu Petean:有一些看似简单但在实践中极具挑战的技术与组织层面的决策,决定了是否能够走向主权性的发展路径:

- 创新主权:企业需要具备自主创造能力。这意味着要引入内部技术人才,并建立持续创新的文化。这种模式的核心在于不把 IT 视为成本中心,也不以牺牲质量换取短期收益。

- 技术领导进入董事会层级:在董事会层面引入真正掌握技术战略角色的成员,使技术决策能够在最高管理层得到直接体现与负责。