【QCon】精华内容上线92%,全面覆盖“人工智能+”的典型案例!>>> 了解详情
写点什么

荷兰银行的 SRE 实践

  • 2018-01-02
  • 本文字数:882 字

    阅读完需:约 3 分钟

来自荷兰国际集团(ING)的 Janna Brummel Robin van Zijll 在伦敦 Velocity 大会上分享了他们是如何通过 SRE 来提升网络银行可用性的。他们组建了一支 SRE 团队,为产品团队(在内部被称为 BizDevOps)提供有关可靠性的工具、咨询和培训。

ING 的 2017 年中指标表明,他们的个人网上银行系统的可用性降到了 96.84%,而其他系统(如个人移动银行)的可用性都在 99.99% 左右。造成这种局面的因素包括:产品团队缺乏监控;集中式的告警系统只在发生重大事件(比如系统崩溃)时才会发出告警,诊断问题需要很长时间(一个主要事故平均需要 69 分钟);缺少事后的事故评审和总结;缺少组件层面的可用性洞见(服务层面的反馈对产品团队来说不够直接)。

集中式的 SRE 团队只提供咨询(他们本身不会参与轮班待命),同时他们作为一个平台团队,也为产品团队提供工具和内部服务,帮助他们提升系统的可靠性。他们根据谷歌SRE 手册中定义的服务可靠性层级来计划和安排产品团队的任务优先级。

目前,SRE 团队主要覆盖金字塔的底下三层。在监控和事故响应方面,他们基于 Prometheus Grafana Mattermost ChatOps )构建了一些工具。他们帮助产品团队进行事故的事后诊断,并提供建议用于识别和修复可靠性问题。Brummel 和 van Zijll 分享了他们是如何花时间和精力扭转之前那种糟糕的局面的。他们建议在增加事故评审频率之前先要多花一些时间搞清楚状况,否则可能会事与愿违。

这些变更是以逐步按需的方式推出的,而不是采取“大爆炸”式的方式进行,让产品团队来决定是否采用他们提供的工具以及是否实践他们的建议。SRE 团队也在从由几个工程师组成的小团队发展成更大的社区(跨国的 SRE 团队,目前有三个 SRE 团队,分别在荷兰、西班牙和澳大利亚)。他们通过演示和内部讨论来发展 SRE 社区。

Brummel 和 van Zijll 关于 SRE 之旅的要点包括:在进行 SRE 招聘时更注重 SRE 思维;为避免出现优先级冲突,SRE 团队需要一个产品负责人;做好花大量时间向产品团队解释和推广 SRE 的准备;工具需要提供商用级别的可用性,而且要切实解决用户的痛点;考虑工具的可扩展性和所有权问题。

查看英文原文 How ING Bank Does SRE

2018-01-02 18:001622
用户头像

发布了 322 篇内容, 共 133.6 次阅读, 收获喜欢 142 次。

关注

评论

发布
暂无评论
发现更多内容

(module6)电商微服务系统拆分

消失的子弹

收藏这36个正则表达式,开发效率提高80%

Tom弹架构

Java 正则表达式

架构实战营模块六作业 - 拆分电商系统为微服务

李焕之

架构实战营-第三期-学习总结

岚哲

极客时间 架构 架构实战营

毕业总结

Felix

极客时间架构实战营作业六

jjn0703

架构实战营

设计电商秒杀系统

tjudream

基于 RocketMQ 的基金数字化陪伴体系的架构实践

阿里巴巴云原生

阿里云 RocketMQ 云原生 消息队列 金融场景

拆分电商系统为微服务

Yina🌝很浪🌊

架构实战营模块六作业

Geek_d18264

架构实战营

设计产品的十大可用性原则

石云升

产品经理 产品设计 产品思维 职场经验 10月月更

电商系统微服务拆分设计

guangbao

电商系统微服务拆分

Sky

「架构实战营」

双十一即将到来,你的网站真的准备好了吗?

阿里巴巴云原生

阿里云 产品 云原生 云拨测

模块一作业

小鹿

架构实战营模块一作业

孙志强

架构实战营

1024:SQL注入

Changing Lin

10月月更

Prometheus 内置函数(三)

耳东@Erdong

Prometheus PromQL 内置函数 10月月更

架构训练营总结

tjudream

在线英文字符串大写转小写,小写转大写工具

入门小站

工具

模块一作业

ks

架构实战营

是极客,也是大娱乐家! 爱奇艺首届“黑客马拉松”见证“娱乐,未来已来”

爱奇艺技术产品团队

极客时间【架构实战营】第二期 模块六作业

Geek_91606e

架构实战营

电商系统微服务拆分

Geek_db27b5

vivo AI 计算平台的 ACK 混合云实践

阿里巴巴云原生

阿里云 云原生 ACK Vivo

【KubeMeet 上海站回顾】 探索云原生应用管理与交付新解法

阿里巴巴云原生

阿里云 开源 云原生 KubeMeet

模块一:为何架构设计能力难以提升? --学习总结

小鹿

学生管理系统架构设计

孙志强

架构实战营

IM场景的移动端UI自动化测试平台实践

轻口味

android 自动化测试平台 10月月更

架构实战训练营模块 6 作业

Sonichen

0 基础架构入门 - 6(电商系统微服务架构)

felix

架构实战营 0 基础架构入门

荷兰银行的SRE实践_DevOps & 平台工程_Manuel Pais_InfoQ精选文章