2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

荷兰银行的 SRE 实践

  • 2018-01-02
  • 本文字数:882 字

    阅读完需:约 3 分钟

来自荷兰国际集团(ING)的 Janna Brummel Robin van Zijll 在伦敦 Velocity 大会上分享了他们是如何通过 SRE 来提升网络银行可用性的。他们组建了一支 SRE 团队,为产品团队(在内部被称为 BizDevOps)提供有关可靠性的工具、咨询和培训。

ING 的 2017 年中指标表明,他们的个人网上银行系统的可用性降到了 96.84%,而其他系统(如个人移动银行)的可用性都在 99.99% 左右。造成这种局面的因素包括:产品团队缺乏监控;集中式的告警系统只在发生重大事件(比如系统崩溃)时才会发出告警,诊断问题需要很长时间(一个主要事故平均需要 69 分钟);缺少事后的事故评审和总结;缺少组件层面的可用性洞见(服务层面的反馈对产品团队来说不够直接)。

集中式的 SRE 团队只提供咨询(他们本身不会参与轮班待命),同时他们作为一个平台团队,也为产品团队提供工具和内部服务,帮助他们提升系统的可靠性。他们根据谷歌SRE 手册中定义的服务可靠性层级来计划和安排产品团队的任务优先级。

目前,SRE 团队主要覆盖金字塔的底下三层。在监控和事故响应方面,他们基于 Prometheus Grafana Mattermost ChatOps )构建了一些工具。他们帮助产品团队进行事故的事后诊断,并提供建议用于识别和修复可靠性问题。Brummel 和 van Zijll 分享了他们是如何花时间和精力扭转之前那种糟糕的局面的。他们建议在增加事故评审频率之前先要多花一些时间搞清楚状况,否则可能会事与愿违。

这些变更是以逐步按需的方式推出的,而不是采取“大爆炸”式的方式进行,让产品团队来决定是否采用他们提供的工具以及是否实践他们的建议。SRE 团队也在从由几个工程师组成的小团队发展成更大的社区(跨国的 SRE 团队,目前有三个 SRE 团队,分别在荷兰、西班牙和澳大利亚)。他们通过演示和内部讨论来发展 SRE 社区。

Brummel 和 van Zijll 关于 SRE 之旅的要点包括:在进行 SRE 招聘时更注重 SRE 思维;为避免出现优先级冲突,SRE 团队需要一个产品负责人;做好花大量时间向产品团队解释和推广 SRE 的准备;工具需要提供商用级别的可用性,而且要切实解决用户的痛点;考虑工具的可扩展性和所有权问题。

查看英文原文 How ING Bank Does SRE

2018-01-02 18:002064
用户头像

发布了 322 篇内容, 共 150.0 次阅读, 收获喜欢 148 次。

关注

评论

发布
暂无评论
发现更多内容

事业-最佳实践-个人-公开场合演讲

南山

最佳实践 演讲 公开场合演讲

一文学会使用valgrind工具进行程序内存检查

Linux内核拾遗

c c++ 内存泄露 Valgrind

使用ReadyAPI自动化测试工具,模拟高负载场景,准确测试API性能,确保你的App不宕机

龙智—DevSecOps解决方案

UI自动化测试

京东JD商品详情API返回值解析:商品数据快速提取

技术冰糖葫芦

API boy API 接口 pinduoduo API

可解决传统保险丝缺陷的电子保险丝efuse

芯动大师

集成电路 电子保险丝 efuse

Linux设备驱动系列(六)——文件操作

Linux内核拾遗

Linux内核 设备驱动

Innodb的RR到底有没有解决幻读?

派大星

MySQL innodb Java面试题

嵌入式软件的自动化测试工具TESSY:产品概述、使用场景及功能价值介绍

龙智—DevSecOps解决方案

集成测试 测试 单元测试 嵌入式软件测试 Tessy

适用于芯片行业的开发及管理工具:版本控制、持续集成、代码分析及项目管理工具介绍

龙智—DevSecOps解决方案

项目管理 Jira Atlassian Helix Core 版本控制工具 芯片研发

可替代IBM DOORS的现代化需求管理解决方案Jama Connect,支持数据迁移及重构、实时可追溯性、简化合规流程

龙智—DevSecOps解决方案

需求管理工具 jama IBM DOORS

物联网智能手表架构实践

智慧源点

Animoca Brands 投资了Penpad, Scroll 生态再迎壮大

股市老人

KaiwuDB 受邀亮相 IOTE2024 演讲,顺便领了个奖

KaiwuDB

数据库 物联网

一文解读 SQL 生成工具

KaiwuDB

数据库 sql

【“AI”协同 创未来】线下研讨会预告:Jira、Confluence及Jira Service Management等Atlassian产品及其AI功能深度解读

龙智—DevSecOps解决方案

京东JD商品sku信息API返回值详解:轻松获取商品规格

技术冰糖葫芦

API boy api 货币化 API 接口 pinduoduo API

Animoca Brands 投资了Penpad, Scroll 生态再迎壮大

BlockChain先知

Penpad 再获 Animoca Brands 投资,全新生态历程

石头财经

11个Python循环技巧

华为云开发者联盟

Python 开发 华为云 华为云开发者联盟 企业号2024年4月PK榜

芯片设计工程师必看:借助Perforce Helix Core和Helix IPLM提高IP重用率,简化设计流程并确保产品质量

龙智—DevSecOps解决方案

Perforce Helix Core 版本控制工具 IP管理

01 RCLI

独钓寒江

​Rust

【开源鸿蒙】下载OpenHarmony 4.1 Release源代码

码匠许师傅

git Linux 开源 鸿蒙 OpenHarmony

TCL电子2024年第一季度65吋及以上电视全球出货量同比增长23.1%

财见

荷兰银行的SRE实践_DevOps & 平台工程_Manuel Pais_InfoQ精选文章