写点什么

荷兰银行的 SRE 实践

  • 2018-01-02
  • 本文字数:882 字

    阅读完需:约 3 分钟

来自荷兰国际集团(ING)的 Janna Brummel Robin van Zijll 在伦敦 Velocity 大会上分享了他们是如何通过 SRE 来提升网络银行可用性的。他们组建了一支 SRE 团队,为产品团队(在内部被称为 BizDevOps)提供有关可靠性的工具、咨询和培训。

ING 的 2017 年中指标表明,他们的个人网上银行系统的可用性降到了 96.84%,而其他系统(如个人移动银行)的可用性都在 99.99% 左右。造成这种局面的因素包括:产品团队缺乏监控;集中式的告警系统只在发生重大事件(比如系统崩溃)时才会发出告警,诊断问题需要很长时间(一个主要事故平均需要 69 分钟);缺少事后的事故评审和总结;缺少组件层面的可用性洞见(服务层面的反馈对产品团队来说不够直接)。

集中式的 SRE 团队只提供咨询(他们本身不会参与轮班待命),同时他们作为一个平台团队,也为产品团队提供工具和内部服务,帮助他们提升系统的可靠性。他们根据谷歌SRE 手册中定义的服务可靠性层级来计划和安排产品团队的任务优先级。

目前,SRE 团队主要覆盖金字塔的底下三层。在监控和事故响应方面,他们基于 Prometheus Grafana Mattermost ChatOps )构建了一些工具。他们帮助产品团队进行事故的事后诊断,并提供建议用于识别和修复可靠性问题。Brummel 和 van Zijll 分享了他们是如何花时间和精力扭转之前那种糟糕的局面的。他们建议在增加事故评审频率之前先要多花一些时间搞清楚状况,否则可能会事与愿违。

这些变更是以逐步按需的方式推出的,而不是采取“大爆炸”式的方式进行,让产品团队来决定是否采用他们提供的工具以及是否实践他们的建议。SRE 团队也在从由几个工程师组成的小团队发展成更大的社区(跨国的 SRE 团队,目前有三个 SRE 团队,分别在荷兰、西班牙和澳大利亚)。他们通过演示和内部讨论来发展 SRE 社区。

Brummel 和 van Zijll 关于 SRE 之旅的要点包括:在进行 SRE 招聘时更注重 SRE 思维;为避免出现优先级冲突,SRE 团队需要一个产品负责人;做好花大量时间向产品团队解释和推广 SRE 的准备;工具需要提供商用级别的可用性,而且要切实解决用户的痛点;考虑工具的可扩展性和所有权问题。

查看英文原文 How ING Bank Does SRE

2018-01-02 18:002293
用户头像

发布了 322 篇内容, 共 157.0 次阅读, 收获喜欢 148 次。

关注

评论

发布
暂无评论
发现更多内容

机器学习 Machine Learning- 吴恩达Andrew Ng 第5~15课总结 John 易筋 ARTS 打卡 Week 47

John(易筋)

ARTS 打卡计划

如何判断企业赚不赚钱?

石云升

创业 财务分析 5月日更

数据工作者必备工作技能:数据治理

博文视点Broadview

如何更改 Notion 中的字体?

彭宏豪95

效率 Notion 工具 5月日更

百度大脑UNIT拍了拍你,提醒你报名智能对话训练营

百度大脑

物联网 智能对话

HarmonyOS开发者创新大赛预选赛结束,23支队伍脱颖而出闯入决赛

Geek_283163

鸿蒙

语义理解过程中的崩溃

Qien Z.

nlp 语义 5月日更

聊聊 Zabbix 和 Prometheus(一)

耳东@Erdong

Prometheus zabbix 5月日更

架构实战营-详细架构设计文档

Simon

架构实战营

凭借一份“面试真经pdf”,我四面字节跳动,拿下1-2级offer

Java 程序员 架构 面试

那些激情燃烧的NFT们

zhoo299

区块链 加密货币 艺术 5月日更 NFT

五一假期回乡,跟大家聊聊感触

架构精进之路

心情 杂记 5月日更

自动发布.NET Core Web应用

吴脑的键客

DevOps 运维自动化 jenkins dotnet

阿里云入选 2021 Gartner APM 魔力象限,国内唯一入选云厂商

阿里巴巴云原生

阿里云 容器 微服务 运维 云原生

技术干货|7个 React 性能提升技巧

拍乐云Pano

React

Java程序员如何在“黄金五年”实现最大价值?

学Java关注我

Java 编程 架构 互联网 计算机

SSL / TLS协议解析!什么是SNI? SNI 识别?

明儿

网络攻防学习笔记 Day10

穿过生命散发芬芳

5月日更 网络攻防

耗时1年的前端技术框架切换之旅

华为云开发者联盟

大前端 软件工程 React 框架

你到底想做什么

ES_her0

5月日更

Golang Chaos Engineering

escray

学习 极客时间 Go 语言 5月日更

Yii2反序列化RCE 新POP链

Thrash

边缘计算与云计算的故事

攻城先森

云计算 边缘计算 5月日更

GreenPlum中的资源队列

数据社

greenplum 5月日更

常见流媒体服务器方案对比分析

liuzhen007

音视频 5月日更

挖矿从入门到放弃:Chia

程序员架构进阶

数字货币 28天写作 Chia奇亚挖矿 5月日更

这个英语学习APP更适合小白

小天同学

学习 英语 5月日更 APP推荐

【LeetCode】解码异或后的排列Java题解

Albert

算法 LeetCode 5月日更

Linux下内存不足问题的定位与处理

明儿

Linux 内存 性能调优

API网关

lenka

5月日更

技术实践丨如何解决异步接口请求快慢不均导致的数据错误问题?

华为云开发者联盟

JavaScript typescript 大前端 浏览器 angular

荷兰银行的SRE实践_DevOps & 平台工程_Manuel Pais_InfoQ精选文章