写点什么

由中行 IBM 大型机宕机谈银行系统运维

  • 2013-04-22
  • 本文字数:2727 字

    阅读完需:约 9 分钟

12 月 15 日中行IBM 大型机宕机,系统没有第一时间切换到热备或者异地容灾上,直接影响中行的信用卡支付相关业务,直到4 小时之后才恢复服务。由于银行业务的特殊性,对于系统的可用性要求极高,就此事件,我们采访了兴业银行系统分析师周伟然、支付宝应用运维架构师陆惟凯(花名:近南),请他们谈一下对于银行系统运维的一些看法。

InfoQ:作为一名银行金融行业的 IT 技术专家,您认为本次中行 IBM 大型机宕机的体现出哪些问题和教训?

陆惟凯:主要的问题是灾备或大型故障的演练与决策,对于硬件或者机房故障的大型故障,需要有经过验证演练的切换方案来保证切换风险可控。对于故障决策来说是否启动灾备切换是个艰难的决定,不过确实也要能够下决策去切换。其实一切的根源还是在切换方案是否足够可靠、是否经过演练。只要切换风险可控,切换得决策其实不会太纠结。

周伟然:对于本次中行事件,具体原因不了解得情况下不好直接评论。但所谓相关金融系统的运维是一个复杂的系统功能,不能单纯的从 main frame 的稳定性一概而论。设备运行的稳定性也只是整体系统稳定性的很小部分。除了环境保障中包含的网络环境、硬件资源、存储设备、操作系统数据库等基础软件环境以外,应用运行、系统间互操作等事件都可能产生重大影响。而风险是无法完全避免的,这才显示的出灾难备份和应急预案的重要性,最大程度降低风险暴露后的影响是验证应急体系有效性的重要指标。

InfoQ: ITIL 流程是否在您所在的组织中使用?对于类似事故,ITIL 流程的处理应该是什么样子?

陆惟凯:使用,不过不是标准的 ITIL 流程。我们有一个应急响应的 Team 在处理相关决策以及应急事务。对于特别重大的问题会在应急响应 TEAM 内进行决策。

周伟然:我行使用 ITIL。无论是 ITIL 还是各级监管机构,乃是内部风险机构,对于银行应急处理的流程均有严格的要求,基本上是系统分类,根据不同等级重要性提出不同的风险要求。对于重要系统,需要建设完备的灾备体系,建立完善的应急预案 并且需要确保灾备和应急预案的有效性。对此,监管和内部审计通过演练进行确认。 所谓的演练非模拟实际环境的演练,而是在实际的生产环境进行的模拟灾难,各机构对演练的频度和内容均有严格的要求,并且重大演练时,监管官员将进行现场检查 通过各银行每年发出的停业公告可以看到这些演练信息。

InfoQ:在你们的系统中,“桌面模拟演练”和“Call Tree 演练”是如何进行的?

陆惟凯:模拟演练比较少吧。方案定了之后模拟其实都是没问题的,定期的 review 是需要的。演练相关主要是定期组织运维的容灾演练与应急演练以及网购节(双 11 大促)之前的演练。

周伟然:据我所知,在股份制银行或规模以上银行,重要系统演练多以实际生产系统的方式进行,模拟演练主要用于系统正式上线之前的验证,在实际生产运行时并不采用也不符合监管要求。所有实际生产系统,即实际生产后台、实际渠道系统,但限定范围,例如,在演练时,可能关闭网银入口,使用户无法直接登录,控制演练本身造成的二次风险。

InfoQ: 相对互联网行业来说,银行金融行业的 IT 运维人员的素质和技能具体有哪些不同?

陆惟凯:个人感觉是比较接近的。可能是我在支付宝工作的缘故,IT 相关企业的运维人员根据企业的性质不同(门户,电商,游戏,SNS)等会有一些各自有特色的容灾以及流控方案。所以需要相关的运维人员更多的了解前端业务,能够根据不同的故障情况进行不同的处理。(例进行功能的删减控制,流量开关,流量切换等)。另外 IT 企业运维人员遇到的外部故障会更多一些比方外部攻击,或运营商,或应用异常出现的故障。。另外传统 IT 业的系统更新频率会比金融业快上很多。相关应用发布带来的一些故障处理也会对运维人员提出更高的需求。传统金融行业的容灾方案相对来说就比较单纯一些。在数据备份方面 IT 企业根据企业特性不同,数据备份的重要性也会不同。金融行业对可用率以及数据备份的要求会更高。

周伟然:由于不太了解互联网的运维素质所以不好比较。但对于金融行业运维,制度性准确性和规范性是很重要的。由于银行设计大量资金和重要隐私,在制度规范上有着较为严格的规定,例如业务、研发人员与生产系统严格分离、生产数据完全无法接触的到、需要检查分析时需要通过严格的审批流程。在研发软件下发生产也必须严格进行内容审查和审批,操作步骤必须清晰描写,而对于运维把控的是对于审批结果的执行,精确执行审批结果而不能自行改动丁点,而且执行过程被记录,可被审计 在风险发生时,则应依照预案进行各项操作。运维人员对于应急预案的制定的维护,需要基于大量运维经验,并且通过不断优化验证的。

InfoQ:能否介绍下:在您所在的组织中,关键业务系统的备份是怎么做的?

陆惟凯:同城容灾加异地灾备吧…同城容灾包括机房内单点容灾(备份)以及机房间的相互备份。

周伟然:备份方式对于重要系统均需多方面考虑,例如某关键系统,首先在运行时就使用应用集群的方式确保可用性,通讯接入采用端口和地址复用进行多重备份。运行体系基本需要确保无单点故障,即单一功能点在 2 个或以上并行运行的节点。其他设备采用热备或冷备方式。该数据库备份基于数据库引擎和高端引擎进行远程灾备同步的功能,为单数据源热备份,数据的保存备份对于非监管要求数据,根据内部管理规定制定备份保存时间,备份至专用数据平台、对于监管要求的数据,在一定时间内在线保存至数据平台,长时间后转磁带长期保存。

InfoQ:在网友评论中看到一句话:“最关键的是一般都是只有设备容灾,没有人员组织架构的容灾。”请问您觉得“人员组织架构的容灾”应该如何理解?

陆惟凯:人员组织架构的容灾分两部分来看,一部分是操作以及一线的处理人员的备份,这块要保证相关的运维的操作技能与权限到位,在第一联系人没有联系到的情况下可以联系第二联系人来进行处理。

第二是决策人员的备份对于决策的人员存在联系不上的情况下,可以联系备份决策人员来进行决策。

当然这里的人员组织架构容灾基本还没有考虑到一个异地或者其他的成分,如果遇到毁天灭地型的地震或者更极端的灾难的时候,可能会缺乏异地的人手来处理问题。。

周伟然:人员组织的架构在银行来说有着明确的规定。首先对于每个系统对应的负责人员需要报送管理,并且做到 A、B 角等多角定义,在系统故障和重大事件保障时均遵循流程对应具体人员。日常工作时,大家对 ab 角等也有一定的注意,例如某集体全体不宜同一趟飞机出行等来降低风险。

InfoQ:能否介绍一些国外银行金融企业对类似问题和事故的处理经验?

陆惟凯:没有相关的经验。

周伟然:处理经验其实之上各题中均有提到,即功夫在平时。好的应急预案和备份需要大量前期工作和定期优化维护,并且验证,每次处理之后通过仔细的分析、审计、故障报告等方式探讨不足,不断地优化和改进。

2013-04-22 09:377459
用户头像

发布了 479 篇内容, 共 180.2 次阅读, 收获喜欢 53 次。

关注

评论

发布
暂无评论
发现更多内容

从原理到落地:重复文档比对算法的开发核心与实践

上海拔俗

移动端性能监控探索:iOS RUM SDK 技术架构与实践

阿里巴巴云原生

阿里云 云原生 RUMSDK

活动邀请丨2025 全球机器学习技术大会

阿里巴巴云原生

阿里云 RocketMQ 云原生

加速鸿蒙生态布局,APP 混合开发或成企业抢占增量红利的关键切口

xuyinyin

音乐 NFT 的上链开发流程

北京木奇移动技术有限公司

区块链开发 软件外包公司 音乐NFT

MyEMS:赋能高效能源管理的核心工具

开源能源管理系统

开源 能源管理系统

开源能源管理系统 MyEMS:赋能企业降本增效,加速能源数字化转型

开源能源管理系统

开源 能源管理系统

掌门社交电商系统:赋能本地生活的三方共赢新生态

微擎应用市场

就餐宝微信小程序:重塑企业食堂管理新生态

微擎应用市场

海外红人营销如何帮助品牌建立影响力?

Wolink

出海服务商 出海企业 海外社媒运营 海外营销推广 沃链Wolink

官网焕新!安势信息以全新形象,解码软件供应链安全流畅体验!

安势信息

官网升级 安势信息 安势信息官网

区块链 Web3 开发的技术架构

北京木奇移动技术有限公司

区块链开发 软件外包公司 web3开发

车间主任必须知道的十个公式

优秀

公式函数 车间管理

智源开源EditScore:为图像编辑解锁在线强化学习的无限可能

智源研究院

成语趣有奖微信小程序管理系统:趣味与变现兼具的优质选择

微擎应用市场

高效便捷的微信小程序信息管理工具,助力教育场景精细化运营

微擎应用市场

企业海外营销预算如何分配?高效ROI模型搭建

Wolink

跨境电商 出海服务商 出海企业 海外社媒营销 海外营销推广

如何利用现有资源启动有效的境外社媒监控

沃观Wovision

沃观Wovision 舆情监测系统 海外舆情监测 社交媒体监控 海外社交媒体监控

企业如何进行海外营销?

Wolink

跨境贸易 跨境电商 出海服务商 出海企业 海外营销推广

数字孪生落地难?点量云流五招破局

点量实时云渲染

3D渲染 数字孪生 智慧工厂 云渲染 元宇宙

数字商品服务助力开发者降本增效,加速数字商品商业变现

HarmonyOS SDK

HarmonyOS NEXT HarmonyOS SDK应用服务

Qoder 上线提示词增强功能,将开发者从“提示词”的负担中解放出来

阿里巴巴云原生

阿里云 云原生 Qoder

开源隐私计算框架SecretFlow | 基于隐语的金融全链路场景介绍和应用实践

隐语SecretFlow

开源 数据 隐私计算 金融风控

赋能工业 / 商业 / 公共机构:开源 MyEMS,让能源管理 “人人可及”

开源能源管理系统

开源 开源能源管理系统

从埋点到用户行为分析:ClkLog 如何帮助企业读懂用户

ClkLog

开源 埋点 用户行为分析 用户画像

Nacos 3.1.0 正式发布,支持 A2A 注册中心与 MCP 注册协议增强

阿里巴巴云原生

阿里云 云原生 nacos

自建团队还是寻找代理?海外推广模式的优劣对比与选型建议

Wolink

跨境电商 出海 出海服务商 海外营销推广 达人营销

大数据-132 Flink SQL 实战入门 | 3 分钟跑通 Table API + SQL 含 toChangelogStream 新写法

武子康

Java 大数据 flink spark 分布式

文心快码3.5S实测插件开发,Architect模式令人惊艳

Comate编码助手

AI 编程 文心快码 文心快码3.5S AI编程助手

基于云技术的域名解析系统研究:传统解析技术的局限性

防火墙后吃泡面

报名开启|全球数据科学与 AI 线上直播会议邀您参会

Altair RapidMiner

人工智能 AI 数据科学 仿真 CAE

由中行IBM大型机宕机谈银行系统运维_IBM_郑柯_InfoQ精选文章