复杂多云环境下, 七牛云日志管理在某大型银行的成功实践

阅读数:206 2019 年 10 月 10 日 18:05

复杂多云环境下,七牛云日志管理在某大型银行的成功实践

银行作为国民经济的重要组成部门,具有信息高度敏感,数据量巨大的特性。同时银行作为信用中介,还必须以防范风险为前提。

七牛云智能日志管理平台的客户银行,作为国内市值前五的大型银行,用户体验极佳,服务贴心高效,信用卡交易额国内领先。但在业务扩张,尤其是自 2017 年底新兴互联网业务爆发式增长后,客户银行的运维部门也承担着越来越重的压力。

相信客户银行在复杂多云环境下的日志管理实践,也对国内同类企业有着一定的借鉴意义,今天特此做使用七牛云 Pandora 智能日志管理系统在多云环境管理场景下的探索和实践分享。

项目难点

- 混合云部署方式,存在多个集群部署在不同环境、不同系统存在异构或者日志来源不同的情况
- 需要管理的业务系统超上千个,多套云上环境
- 必须支持复杂查询和运维排障;并做到日志的实时查询、准实时汇总统计及全量数据监控
- 需要对接已有的行内账号体系和告警平台
- 客户希望将运维部门由成本部门转化为利润部门

项目实施前

这家银行早期使用 ELK 自建了一套日志管理平台,初期运营良好。但自从 2017 年底,银行的新兴互联网业务开始呈现爆发式增长,导致系统日志数量也随之剧增,每日新增日志数量超过几十 T。各种新的业务系统以极快速度开发上线,同时相关业务需求也在增加,给运维带来了机器资源管理及系统管理的巨大压力,日志系统的压力也越来越大。

随着管理系统的增加,开发人员的功能需求也随之增加,希望在日志系统上新增各种查询和复杂统计分析。例如:

- 及时定位业务系统异常,限定各类条件的百亿级日志秒级故障查询
- 根据不同条件,进行业务情况的分钟级汇总统计
- 保障各业务部门数据安全访问和资源分配问题需要的灵活细粒度的多租户管控
等等

自建的 ELK 系统面对这样的情况,需要企业投入更大的运维团队来做维护,并且现有技术能力难以解决 ELK 性能及稳定性问题,短期内无法跟上暴增的业务发展需求。同时,随着数据量不断增长,日志的实时查询、准实时汇总统计及全量数据监控成为了一个难点和瓶颈,一直没有找到合适的解决方式。

面对这样的情况,客户银行急需构建一个具有技术前瞻性的平台良好对接已有的行内账号体系和告警平台。综合考虑之后,决定采购七牛云 Pandora 智能日志管理平台来应对互联网业务突增的多云管理。

引入 Pandora

客户银行首先将云上互联网业务的应用日志打入 Pandora 平台,借助平台脚本执行功能实现开机时数据采集 agent 的自动部署,实时采集了包括行内费用 Top5 的项目日志和机器性能监控指标数据,通过该类日志提供复杂查询分析、问题定位和 metric 的实时监控分析及告警功能,并无缝对接已有的行内账号体系和告警平台。

由于 Pandora 对于权限的控制高度灵活及精细化,可以支撑银行对于资源灵活分配及数据安全的基本需求。同时新增了实时状态监控和告警全生命周期管理,如果出现异常会通过 http、邮件、微信、短信等方式告警。

确定方案后,迅速调整了项目架构,该多云环境下的统一日志管理平台架构如下所示:

复杂多云环境下,七牛云日志管理在某大型银行的成功实践

图 1:系统架构图

在初步几个重点云上互联网应用项目实施成功后,银行决定加深对于 Pandora 的使用。决定将各种网络设备、存储日志及现有银行业务系统日志均汇总到 Pandora 中,并根据七牛云日志产品团队的建议和协助部署各类监控。为更好的洞察日志中的异常,第一时间发现异常日志之后,七牛云日志平台 Pandora 会将异常告警通过 http 接口回调给到行内告警和运维自愈模块,收到告警信息后,自愈系统会根据不同告警内容对应的愈合逻辑做对应的异常处理,保证第一时间恢复应用的可用性。

更大规模使用

客户银行在接下去的 6 个月内将所有现有的互联网业务迁移到 Pandora,并完成了与行内账号体系的完整对接。

本阶段主要以缩减成本为主题,更好的为采购部、审计部、分行上云提供审计数据输出,整合混合云账单相关费用信息、初期采集的相关监控负载信息(包括 服务器、数据库、缓存系统等产品的监控、计量信息)和以项目为单位的业务量,提供一份完善可供审计的费用 - 资源 - 业务量报表。针对账号操作类,使用 audit trail 实现账号的安全审计,建立一个完善的安全审计策略。

同时,由于 Pandora 的性能可靠和易用性(可视化操作界面),银行目前已将 Pandora 作为一个很重要的日志管理方案,在项目启动时会要求项目日志接入 Pandora。

目前,客户银行部署集群共几十个数据节点,接入上百个业务应用,管理上千台服务器性能指标,接入 Pandora 的日志数据日增量已达几十 T 并持续增长,数据量过千亿,支撑了每天过亿的访问,并提供千万级别的数据监控服务,高峰 QPS 过万。

目前 Pandora 平台在客户银行内部运行非常稳健,Pandora 经过公有云大规模集群长期服务验证,在用户数据量增长时,集群的性能可以随之线性增长,平台自带高可用和动态扩容。业务侧的开发人员在使用 Pandora 平台的过程中学习成本极低,同时自带应用市场提供很多开箱即用级应用。在持续一年多的使用中,Pandora 团队一直与客户银行保持紧密的沟通和交流,将平台新研发特性同步在客户侧进行更新迭代,互相之间也频繁紧密的进行技术和使用方面的沟通,便于 Pandora 更好的满足用户的业务需求以及降低用户使用的心智负担。

未来展望

当业务日志逐步完成平台对接后,客户银行从 2019 年开始推动利用 Pandora 实现数据智能的目标。本阶段需要充分挖掘并发挥数据价值,通过现有日志平台的数据实现异常智能预警及数据智能分类,同时针对安全合规的需求,Pandora 可以利用数据智能帮助客户银行定义安全事件、制定合规策略等。

预计 2019 年底,Pandora 集群将会实现异地多中心部署,共计接入机器上万台,这将给开发和运维带来了一定的挑战。Pandora 同时提供多集群的便捷管理方案以及支持基于 K8S 来自动管理和调度实例。可以预见,随着客户银行的深入使用,Pandora 的实例数和接入机器数会继续以较快的速度增长和扩容。

本文转载自公众号七牛云(ID:qiniutek)。

原文链接:

https://mp.weixin.qq.com/s/nkDCa4TtYL30lfFGcMM2fg

评论

发布