写点什么

荷兰银行的 SRE 实践

  • 2018-01-02
  • 本文字数:882 字

    阅读完需:约 3 分钟

来自荷兰国际集团(ING)的 Janna Brummel Robin van Zijll 在伦敦 Velocity 大会上分享了他们是如何通过 SRE 来提升网络银行可用性的。他们组建了一支 SRE 团队,为产品团队(在内部被称为 BizDevOps)提供有关可靠性的工具、咨询和培训。

ING 的 2017 年中指标表明,他们的个人网上银行系统的可用性降到了 96.84%,而其他系统(如个人移动银行)的可用性都在 99.99% 左右。造成这种局面的因素包括:产品团队缺乏监控;集中式的告警系统只在发生重大事件(比如系统崩溃)时才会发出告警,诊断问题需要很长时间(一个主要事故平均需要 69 分钟);缺少事后的事故评审和总结;缺少组件层面的可用性洞见(服务层面的反馈对产品团队来说不够直接)。

集中式的 SRE 团队只提供咨询(他们本身不会参与轮班待命),同时他们作为一个平台团队,也为产品团队提供工具和内部服务,帮助他们提升系统的可靠性。他们根据谷歌SRE 手册中定义的服务可靠性层级来计划和安排产品团队的任务优先级。

目前,SRE 团队主要覆盖金字塔的底下三层。在监控和事故响应方面,他们基于 Prometheus Grafana Mattermost ChatOps )构建了一些工具。他们帮助产品团队进行事故的事后诊断,并提供建议用于识别和修复可靠性问题。Brummel 和 van Zijll 分享了他们是如何花时间和精力扭转之前那种糟糕的局面的。他们建议在增加事故评审频率之前先要多花一些时间搞清楚状况,否则可能会事与愿违。

这些变更是以逐步按需的方式推出的,而不是采取“大爆炸”式的方式进行,让产品团队来决定是否采用他们提供的工具以及是否实践他们的建议。SRE 团队也在从由几个工程师组成的小团队发展成更大的社区(跨国的 SRE 团队,目前有三个 SRE 团队,分别在荷兰、西班牙和澳大利亚)。他们通过演示和内部讨论来发展 SRE 社区。

Brummel 和 van Zijll 关于 SRE 之旅的要点包括:在进行 SRE 招聘时更注重 SRE 思维;为避免出现优先级冲突,SRE 团队需要一个产品负责人;做好花大量时间向产品团队解释和推广 SRE 的准备;工具需要提供商用级别的可用性,而且要切实解决用户的痛点;考虑工具的可扩展性和所有权问题。

查看英文原文 How ING Bank Does SRE

2018-01-02 18:002326
用户头像

发布了 322 篇内容, 共 158.2 次阅读, 收获喜欢 148 次。

关注

评论

发布
暂无评论
发现更多内容

基于强化学习的测试日志智能分析实践

华为云开发者联盟

人工智能 测试 华为云 强化学习 企业号十月 PK 榜

Flash软件应用项目(三)

张立梵

设计师 Flash 10月月更

经历了6个月的失踪,我将带着干货终究归来!【RocketMQ入门到精通】

码界西柚

1024 10月月更

HashMap源码分析(二)

知识浅谈

hashmap 10月月更

第K个语法符号

掘金安东尼

算法 10月月更

图解 | 聊聊 MyBatis 缓存

悟空聊架构

缓存 一级缓存 悟空聊架构 10月月更 myabtis

npm 新型定时攻击或导致软件供应链安全风险

SEAL安全

npm 软件供应链攻击

树莓派4B安装docker-compose(64位Linux)

程序员欣宸

Docker 10月月更 树莓派4

golang中的init初始化函数

六月的

golang init

计算机体系结构“圣经”新版,图灵奖得主扛鼎之作,影响无数技术人

图灵教育

计算机体系结构 图灵奖

Redis的string内存消耗为何如此之大

芥末拌个饭吧

后端 redis 底层原理 10月月更

Go语言入门01—数据类型

良猿

Go golang 10月月更

快速体验React开发基础入门指南

CoderBin

前端 框架学习 #web react redux 10月月更

“全球金牌课程”【11月CSM认证】国际Scrum联盟认证导师CST授课 | 火热报名中

ShineScrum

Scrum CSM 敏捷项目 ScrumMaster认证

计算机体系结构“圣经”新版,图灵奖得主扛鼎之作,影响无数技术人

图灵社区

计算机体系结构

在线问题反馈模块实战(五):实现对通用字段内容自动填充功能

bug菌

springboot 项目实战 10月月更

在线问题反馈模块实战(六):接口文档定义

bug菌

springboot 项目实战 10月月更

群主发红包带你深入了解继承和super、this关键字

共饮一杯无

Java 关键字 10月月更

“程”风破浪的开发者|你真的会用Redis做消息队列吗

芥末拌个饭吧

学习方法 redis 底层原理 10月月更

优雅代码的秘密,都藏在这6个设计原则中

小小怪下士

Java 接口

在线问题反馈模块实战(四):封装通用字段类

bug菌

springboot 项目实战 10月月更

命名规范与原则

Appleex

代码人生 命名规范

【一Go到底】第二十天---闭包

指剑

Go golang 10月月更

golang中的接口

六月的

golang interface

华为云从入门到实战 | AI云开发ModelArts入门与WAF应用与部署

TiAmo

华为 华为云 云开发 10月月更

【LeetCode】连续子数组的最大和Java题解

Albert

算法 LeetCode 10月月更

如果你看不懂别人画的 UML 类图,看这一篇文章就够了

跟着飞哥学编程

Java设计模式 10月月更 UML类图

易安联安全应急响应中心EnSRC上线,专为零信任安全守护

权说安全

零信任 应急响应

Photoshop软件应用项目(三)

张立梵

设计师 ps 10月月更

Redis哨兵机制了解一下

芥末拌个饭吧

后端 redis 底层原理 10月月更

Linux下内存空间分配、物理地址与虚拟地址映射

DS小龙哥

10月月更

荷兰银行的SRE实践_DevOps & 平台工程_Manuel Pais_InfoQ精选文章