写点什么

荷兰银行的 SRE 实践

  • 2018-01-02
  • 本文字数:882 字

    阅读完需:约 3 分钟

来自荷兰国际集团(ING)的 Janna Brummel Robin van Zijll 在伦敦 Velocity 大会上分享了他们是如何通过 SRE 来提升网络银行可用性的。他们组建了一支 SRE 团队,为产品团队(在内部被称为 BizDevOps)提供有关可靠性的工具、咨询和培训。

ING 的 2017 年中指标表明,他们的个人网上银行系统的可用性降到了 96.84%,而其他系统(如个人移动银行)的可用性都在 99.99% 左右。造成这种局面的因素包括:产品团队缺乏监控;集中式的告警系统只在发生重大事件(比如系统崩溃)时才会发出告警,诊断问题需要很长时间(一个主要事故平均需要 69 分钟);缺少事后的事故评审和总结;缺少组件层面的可用性洞见(服务层面的反馈对产品团队来说不够直接)。

集中式的 SRE 团队只提供咨询(他们本身不会参与轮班待命),同时他们作为一个平台团队,也为产品团队提供工具和内部服务,帮助他们提升系统的可靠性。他们根据谷歌SRE 手册中定义的服务可靠性层级来计划和安排产品团队的任务优先级。

目前,SRE 团队主要覆盖金字塔的底下三层。在监控和事故响应方面,他们基于 Prometheus Grafana Mattermost ChatOps )构建了一些工具。他们帮助产品团队进行事故的事后诊断,并提供建议用于识别和修复可靠性问题。Brummel 和 van Zijll 分享了他们是如何花时间和精力扭转之前那种糟糕的局面的。他们建议在增加事故评审频率之前先要多花一些时间搞清楚状况,否则可能会事与愿违。

这些变更是以逐步按需的方式推出的,而不是采取“大爆炸”式的方式进行,让产品团队来决定是否采用他们提供的工具以及是否实践他们的建议。SRE 团队也在从由几个工程师组成的小团队发展成更大的社区(跨国的 SRE 团队,目前有三个 SRE 团队,分别在荷兰、西班牙和澳大利亚)。他们通过演示和内部讨论来发展 SRE 社区。

Brummel 和 van Zijll 关于 SRE 之旅的要点包括:在进行 SRE 招聘时更注重 SRE 思维;为避免出现优先级冲突,SRE 团队需要一个产品负责人;做好花大量时间向产品团队解释和推广 SRE 的准备;工具需要提供商用级别的可用性,而且要切实解决用户的痛点;考虑工具的可扩展性和所有权问题。

查看英文原文 How ING Bank Does SRE

2018-01-02 18:002357
用户头像

发布了 322 篇内容, 共 159.2 次阅读, 收获喜欢 148 次。

关注

评论

发布
暂无评论
发现更多内容

HyperWorks基础培训教程:批处理网格划分

智造软件

教程分享 CAE软件 Hypermesh

多云管理平台定义以及好用的厂商推荐

行云管家

云计算 云服务 企业上云 多云管理

漫谈自动化测试

老张

软件测试 持续集成 自动化测试 质量保障

商场LED透明屏:选择参考分析

Dylan

品牌 LED display LED显示屏 零售电商市场

拼多多详情API接口的获取与应用

科普小能手

拼多多 API 接口 API 测试 pinduoduo API 拼多多数据

NocoBase 本周更新汇总:子表格支持分页、工作流优化等

NocoBase

开源 低代码 无代码 产品更新

皮阿诺3.0抗菌“黑科技”石英石台面,由内而外守护家人健康

新消费日报

革新之作!可心柔保湿小绒巾上新,引领生活用纸新潮流

新消费日报

伊宁等保测评机构有哪些?电话多少?

行云管家

等保 等保测评 伊宁

鸿蒙网络编程系列35-通过数据包结束标志解决TCP粘包问题

长弓三石

DevEco Studio 开发实例 HarmonyOS NEXT 网络与连接

Stability AI一口气推出3款图像生成模型系列!升级版Claude 3.5 Sonnet能像人类一样操控电脑|AI日报

可信AI进展

非凸科技银牌赞助GOSIM CHINA 2024,并受邀出席Rust分论坛

非凸科技

开源 rust

1024|京东零售技术人的N种可能

京东零售技术

1024

Taro 鸿蒙技术内幕系列(一):如何将 React 代码跑在 ArkUI 上

京东零售技术

taro 鸿蒙 前端

增长在流量规则巡检的探索实践|得物技术

得物技术

测试 质量保障 流量巡检

Aloudata BIG 主动元数据平台支持 Oracle/DB2 存储过程算子级血缘解析

Aloudata

数据库迁移 存储过程 数据血缘

DApp的盈利模式与去中心化的意义

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 钱包开发 代币开发

鸿蒙网络编程系列34-Wifi热点扫描及连接示例

长弓三石

DevEco Studio 开发实例 HarmonyOS NEXT 网络与连接

摊牌了!没有人能拒绝用大屏激光电视看NBA

极客天地

腾讯云EdgeOne发布全新Pages,技术普惠广大企业及开发者

极客天地

如何处理海量数据?基于Milvus向量数据库的高度可扩展性

Zilliz

人工智能 Milvus 大模型 Zilliz 向量数据库

CST如何选择时域求解器的频率范围

思茂信息

cst使用教程 电磁仿真 频率

Spring高手之路23——AOP触发机制与代理逻辑的执行

砖业洋__

spring aop aop代理

幽灵代币经济学:揭秘代币分配有哪些后门交易

区块链软件开发推广运营

dapp开发 链游开发 NFT开发 钱包开发 代币开发

火山引擎数据飞轮线上研讨会即将开启,助力消费品牌双十一造爆款

字节跳动数据平台

荷兰银行的SRE实践_DevOps & 平台工程_Manuel Pais_InfoQ精选文章