写点什么

荷兰银行的 SRE 实践

  • 2018-01-02
  • 本文字数:882 字

    阅读完需:约 3 分钟

来自荷兰国际集团(ING)的 Janna Brummel Robin van Zijll 在伦敦 Velocity 大会上分享了他们是如何通过 SRE 来提升网络银行可用性的。他们组建了一支 SRE 团队,为产品团队(在内部被称为 BizDevOps)提供有关可靠性的工具、咨询和培训。

ING 的 2017 年中指标表明,他们的个人网上银行系统的可用性降到了 96.84%,而其他系统(如个人移动银行)的可用性都在 99.99% 左右。造成这种局面的因素包括:产品团队缺乏监控;集中式的告警系统只在发生重大事件(比如系统崩溃)时才会发出告警,诊断问题需要很长时间(一个主要事故平均需要 69 分钟);缺少事后的事故评审和总结;缺少组件层面的可用性洞见(服务层面的反馈对产品团队来说不够直接)。

集中式的 SRE 团队只提供咨询(他们本身不会参与轮班待命),同时他们作为一个平台团队,也为产品团队提供工具和内部服务,帮助他们提升系统的可靠性。他们根据谷歌SRE 手册中定义的服务可靠性层级来计划和安排产品团队的任务优先级。

目前,SRE 团队主要覆盖金字塔的底下三层。在监控和事故响应方面,他们基于 Prometheus Grafana Mattermost ChatOps )构建了一些工具。他们帮助产品团队进行事故的事后诊断,并提供建议用于识别和修复可靠性问题。Brummel 和 van Zijll 分享了他们是如何花时间和精力扭转之前那种糟糕的局面的。他们建议在增加事故评审频率之前先要多花一些时间搞清楚状况,否则可能会事与愿违。

这些变更是以逐步按需的方式推出的,而不是采取“大爆炸”式的方式进行,让产品团队来决定是否采用他们提供的工具以及是否实践他们的建议。SRE 团队也在从由几个工程师组成的小团队发展成更大的社区(跨国的 SRE 团队,目前有三个 SRE 团队,分别在荷兰、西班牙和澳大利亚)。他们通过演示和内部讨论来发展 SRE 社区。

Brummel 和 van Zijll 关于 SRE 之旅的要点包括:在进行 SRE 招聘时更注重 SRE 思维;为避免出现优先级冲突,SRE 团队需要一个产品负责人;做好花大量时间向产品团队解释和推广 SRE 的准备;工具需要提供商用级别的可用性,而且要切实解决用户的痛点;考虑工具的可扩展性和所有权问题。

查看英文原文 How ING Bank Does SRE

2018-01-02 18:002338
用户头像

发布了 322 篇内容, 共 158.6 次阅读, 收获喜欢 148 次。

关注

评论

发布
暂无评论
发现更多内容

Python Dev Day@北京站,我们来啦!

PyChina

bitget合约一键跟单社区交易平台开发功能以及模式分析

开发微hkkf5566

太厉害了!GitHub上标星80K的微服务实战笔记,看完跪了

Java 微服务 Spring Cloud Spring Cloud Aliababa

一文详解Java中的ThreadLocal

Java 多线程 线程池 ThreadLocal

时效准确率提升之承运商路由网络挖掘 | 得物技术

得物技术

供应链履约时效,java

国际版语音房聊天APP,视频语音平台开发搭建经验及后台项目简要说明

山东布谷科技胡月

语音聊天系统 语音直播app开发 国际版语音直播APP 国际版语音系统源码 语音聊天房系统搭建

扫一扫,原来这么简单

HarmonyOS SDK

HMS Core

软件测试/测试开发丨iOS自动化测试之基于模拟器的自动化测试

测试人

ios 软件测试 自动化测试 测试开发

Pushing to Git returning Error Code 403

刿刀

火山引擎VeDI零售行业解决方案 聚焦精准营销场景提升品牌转化

字节跳动数据平台

大数据 云服务 数据平台 企业号 3 月 PK 榜

在 Kubernetes 中部署应用交付服务(第 1 部分)

NGINX开源社区

融合低代码与GPT,微软的又一个神奇颠覆

ToB行业头条

自动化回归测试平台 AREX 0.2.7 版本正式发布!

AREX 中文社区

开源 自动化测试 接口测试 回归测试

ONES 入选北大光华 MBA 整合实践项目,推动校企合作

万事ONES

软件测试/测试开发丨iOS自动化真机测试验证环境过程中常见问题

测试人

软件测试 自动化测试 测试开发 ios测试

文档智能分析产业实践,基于PP-StructureV2和OpenVINO实现训练部署开发全流程

飞桨PaddlePaddle

双非渣硕,开发一年,苦刷算法三个月,四面字节成功斩获offer

Java 数据结构 面试 算法

2023年实用性好的堡垒机推荐

行云管家

网络安全 堡垒机

电力行业等保定级评级依据是什么?分为几个等级?

行云管家

电力 等保 等保测评

小程序营销模板的发展现状及前景分析

没有用户名丶

小程序

XLD音频无损解码器:X Lossless Decoder中文激活版

真大的脸盆

Mac Mac 软件 音频解码 音频处理工具 音频管理

用 JavaScript 写出一个彩票系统?

泰罗凹凸曼

JavaScript 前端

Spring为什么需要三个级别的缓存来解决循环依赖

Java spring 面试 循环依赖 三级缓存

瓴羊Quick BI数据门户,让管理企业像浏览网页一样轻松

对不起该用户已成仙‖

荷兰银行的SRE实践_DevOps & 平台工程_Manuel Pais_InfoQ精选文章