写点什么

荷兰银行的 SRE 实践

  • 2018-01-02
  • 本文字数:882 字

    阅读完需:约 3 分钟

来自荷兰国际集团(ING)的 Janna Brummel Robin van Zijll 在伦敦 Velocity 大会上分享了他们是如何通过 SRE 来提升网络银行可用性的。他们组建了一支 SRE 团队,为产品团队(在内部被称为 BizDevOps)提供有关可靠性的工具、咨询和培训。

ING 的 2017 年中指标表明,他们的个人网上银行系统的可用性降到了 96.84%,而其他系统(如个人移动银行)的可用性都在 99.99% 左右。造成这种局面的因素包括:产品团队缺乏监控;集中式的告警系统只在发生重大事件(比如系统崩溃)时才会发出告警,诊断问题需要很长时间(一个主要事故平均需要 69 分钟);缺少事后的事故评审和总结;缺少组件层面的可用性洞见(服务层面的反馈对产品团队来说不够直接)。

集中式的 SRE 团队只提供咨询(他们本身不会参与轮班待命),同时他们作为一个平台团队,也为产品团队提供工具和内部服务,帮助他们提升系统的可靠性。他们根据谷歌SRE 手册中定义的服务可靠性层级来计划和安排产品团队的任务优先级。

目前,SRE 团队主要覆盖金字塔的底下三层。在监控和事故响应方面,他们基于 Prometheus Grafana Mattermost ChatOps )构建了一些工具。他们帮助产品团队进行事故的事后诊断,并提供建议用于识别和修复可靠性问题。Brummel 和 van Zijll 分享了他们是如何花时间和精力扭转之前那种糟糕的局面的。他们建议在增加事故评审频率之前先要多花一些时间搞清楚状况,否则可能会事与愿违。

这些变更是以逐步按需的方式推出的,而不是采取“大爆炸”式的方式进行,让产品团队来决定是否采用他们提供的工具以及是否实践他们的建议。SRE 团队也在从由几个工程师组成的小团队发展成更大的社区(跨国的 SRE 团队,目前有三个 SRE 团队,分别在荷兰、西班牙和澳大利亚)。他们通过演示和内部讨论来发展 SRE 社区。

Brummel 和 van Zijll 关于 SRE 之旅的要点包括:在进行 SRE 招聘时更注重 SRE 思维;为避免出现优先级冲突,SRE 团队需要一个产品负责人;做好花大量时间向产品团队解释和推广 SRE 的准备;工具需要提供商用级别的可用性,而且要切实解决用户的痛点;考虑工具的可扩展性和所有权问题。

查看英文原文 How ING Bank Does SRE

2018-01-02 18:002319
用户头像

发布了 322 篇内容, 共 157.9 次阅读, 收获喜欢 148 次。

关注

评论

发布
暂无评论
发现更多内容

跨越数据的“叹息墙”:华为下一代数据湖与HPDA时代

脑极体

“数字足迹”怕暴露,数字人民币如何守护你我隐私安全?

CECBC

数字货币

如何激励员工?—— 马斯洛需求理论

石云升

激励 28天写作 职场经验 管理经验 3月日更

go + ffmpeg + goav 实现拉流解码器

张音乐

音视频 ffmpeg Go 语言 goav

Centos7下Docker安装&配置&镜像加速

happlyfox

学习 ,docker 3月日更

双非怎么了

我是程序员小贱

3月日更

《MySQL》系列 - select 查询语句到底是怎么执行的?

一个优秀的废人

MySQL 数据库 原理 sql查询

如何快速掌握 Kubernetes 网络

倪朋飞

学习方法 Kubernetes 云原生

OKR实践中的痛点(4):再谈老板的KR我的O

大叔杨

OKR 敏捷 绩效 敏捷绩效

Java + opencv 实现图片人脸检测

张音乐

Java AI OpenCV ffmpeg 人脸识别

算法:求两个单向链表的最早公共交点

程序员架构进阶

算法 链表 28天写作 3月日更 算法解析

局域网服务器访问外网方案

程序员与厨子

Linux 网络 路由表

满满干货|支付宝美女面试官的贴心锦囊

Lily

工作三年,小胖不知道 MySQL 日志是干嘛的。真的菜

一个优秀的废人

MySQL mysql事务 MySQL日志

关于Vue权限路由思考

程序员海军

Vue 大前端 vue-router 权限认证 按钮权限

聊聊集群、分布式和微服务之间的异同点

架构精进之路

分布式 微服务 集群 3月日更

Java反射简析

Langer

Java java反射

记一次生产环境大面积404问题!

冰河

nginx 网关

Redis - 主从模式

insight

redis 3月日更

记上周双休日的加班

sadhu

加班

零信任提升组织的数字安全性

龙归科技

网络 数字时代 零信任

高性能公链能为 DeFi 带来什么?

CECBC

区块链

推动产业数字化 提升服务实体经济质效

CECBC

科技

缓存不一致、缓存雪崩、缓存击穿、缓存穿透

escray

redis 学习 极客时间 3月日更 Redis 核心技术与实战

Java + opencv实现视频人脸检测

张音乐

OpenCV 人脸识别 视频

普元CTO焦烈焱:成长之路务必重视工程能力

EAWorld

程序员

FFmpeg应用篇

Changing Lin

3月日更

工作四年,分享50个让你代码更好的小建议

比伯

Java 程序员 架构 程序人生 计算机

PS 进行隐藏图制作

空城机

PhotoShop ps 视觉处理 视觉 隐藏图

【Axure9百例】47.CSDN的列表样式

zhuchuanming

原型设计 Axure 交互原型

从新手到专家:如何设计一套亿级消息量的分布式IM系统

JackJiang

架构设计 即时通讯 IM

荷兰银行的SRE实践_DevOps & 平台工程_Manuel Pais_InfoQ精选文章