NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

复杂多云环境下, 七牛云日志管理在某大型银行的成功实践

  • 2019-10-10
  • 本文字数:2398 字

    阅读完需:约 8 分钟

复杂多云环境下,七牛云日志管理在某大型银行的成功实践

银行作为国民经济的重要组成部门,具有信息高度敏感,数据量巨大的特性。同时银行作为信用中介,还必须以防范风险为前提。


七牛云智能日志管理平台的客户银行,作为国内市值前五的大型银行,用户体验极佳,服务贴心高效,信用卡交易额国内领先。但在业务扩张,尤其是自 2017 年底新兴互联网业务爆发式增长后,客户银行的运维部门也承担着越来越重的压力。


相信客户银行在复杂多云环境下的日志管理实践,也对国内同类企业有着一定的借鉴意义,今天特此做使用七牛云 Pandora 智能日志管理系统在多云环境管理场景下的探索和实践分享。

项目难点

-混合云部署方式,存在多个集群部署在不同环境、不同系统存在异构或者日志来源不同的情况


-需要管理的业务系统超上千个,多套云上环境


-必须支持复杂查询和运维排障;并做到日志的实时查询、准实时汇总统计及全量数据监控


-需要对接已有的行内账号体系和告警平台


-客户希望将运维部门由成本部门转化为利润部门

项目实施前

这家银行早期使用 ELK 自建了一套日志管理平台,初期运营良好。但自从 2017 年底,银行的新兴互联网业务开始呈现爆发式增长,导致系统日志数量也随之剧增,每日新增日志数量超过几十 T。各种新的业务系统以极快速度开发上线,同时相关业务需求也在增加,给运维带来了机器资源管理及系统管理的巨大压力,日志系统的压力也越来越大。


随着管理系统的增加,开发人员的功能需求也随之增加,希望在日志系统上新增各种查询和复杂统计分析。例如:


-及时定位业务系统异常,限定各类条件的百亿级日志秒级故障查询


-根据不同条件,进行业务情况的分钟级汇总统计


-保障各业务部门数据安全访问和资源分配问题需要的灵活细粒度的多租户管控


等等


自建的 ELK 系统面对这样的情况,需要企业投入更大的运维团队来做维护,并且现有技术能力难以解决 ELK 性能及稳定性问题,短期内无法跟上暴增的业务发展需求。同时,随着数据量不断增长,日志的实时查询、准实时汇总统计及全量数据监控成为了一个难点和瓶颈,一直没有找到合适的解决方式。


面对这样的情况,客户银行急需构建一个具有技术前瞻性的平台良好对接已有的行内账号体系和告警平台。综合考虑之后,决定采购七牛云 Pandora 智能日志管理平台来应对互联网业务突增的多云管理。

引入 Pandora

客户银行首先将云上互联网业务的应用日志打入 Pandora 平台,借助平台脚本执行功能实现开机时数据采集 agent 的自动部署,实时采集了包括行内费用 Top5 的项目日志和机器性能监控指标数据,通过该类日志提供复杂查询分析、问题定位和 metric 的实时监控分析及告警功能,并无缝对接已有的行内账号体系和告警平台。


由于 Pandora 对于权限的控制高度灵活及精细化,可以支撑银行对于资源灵活分配及数据安全的基本需求。同时新增了实时状态监控和告警全生命周期管理,如果出现异常会通过 http、邮件、微信、短信等方式告警。


确定方案后,迅速调整了项目架构,该多云环境下的统一日志管理平台架构如下所示:



图 1:系统架构图


在初步几个重点云上互联网应用项目实施成功后,银行决定加深对于 Pandora 的使用。决定将各种网络设备、存储日志及现有银行业务系统日志均汇总到 Pandora 中,并根据七牛云日志产品团队的建议和协助部署各类监控。为更好的洞察日志中的异常,第一时间发现异常日志之后,七牛云日志平台 Pandora 会将异常告警通过 http 接口回调给到行内告警和运维自愈模块,收到告警信息后,自愈系统会根据不同告警内容对应的愈合逻辑做对应的异常处理,保证第一时间恢复应用的可用性。

更大规模使用

客户银行在接下去的 6 个月内将所有现有的互联网业务迁移到 Pandora,并完成了与行内账号体系的完整对接。


本阶段主要以缩减成本为主题,更好的为采购部、审计部、分行上云提供审计数据输出,整合混合云账单相关费用信息、初期采集的相关监控负载信息(包括 服务器、数据库、缓存系统等产品的监控、计量信息)和以项目为单位的业务量,提供一份完善可供审计的费用-资源-业务量报表。针对账号操作类,使用 audit trail 实现账号的安全审计,建立一个完善的安全审计策略。


同时,由于 Pandora 的性能可靠和易用性(可视化操作界面),银行目前已将 Pandora 作为一个很重要的日志管理方案,在项目启动时会要求项目日志接入 Pandora。


目前,客户银行部署集群共几十个数据节点,接入上百个业务应用,管理上千台服务器性能指标,接入 Pandora 的日志数据日增量已达几十 T 并持续增长,数据量过千亿,支撑了每天过亿的访问,并提供千万级别的数据监控服务,高峰 QPS 过万。


目前 Pandora 平台在客户银行内部运行非常稳健,Pandora 经过公有云大规模集群长期服务验证,在用户数据量增长时,集群的性能可以随之线性增长,平台自带高可用和动态扩容。业务侧的开发人员在使用 Pandora 平台的过程中学习成本极低,同时自带应用市场提供很多开箱即用级应用。在持续一年多的使用中,Pandora 团队一直与客户银行保持紧密的沟通和交流,将平台新研发特性同步在客户侧进行更新迭代,互相之间也频繁紧密的进行技术和使用方面的沟通,便于 Pandora 更好的满足用户的业务需求以及降低用户使用的心智负担。

未来展望

当业务日志逐步完成平台对接后,客户银行从 2019 年开始推动利用 Pandora 实现数据智能的目标。本阶段需要充分挖掘并发挥数据价值,通过现有日志平台的数据实现异常智能预警及数据智能分类,同时针对安全合规的需求,Pandora 可以利用数据智能帮助客户银行定义安全事件、制定合规策略等。


预计 2019 年底,Pandora 集群将会实现异地多中心部署,共计接入机器上万台,这将给开发和运维带来了一定的挑战。Pandora 同时提供多集群的便捷管理方案以及支持基于 K8S 来自动管理和调度实例。可以预见,随着客户银行的深入使用,Pandora 的实例数和接入机器数会继续以较快的速度增长和扩容。


本文转载自公众号七牛云(ID:qiniutek)。


原文链接:


https://mp.weixin.qq.com/s/nkDCa4TtYL30lfFGcMM2fg


2019-10-10 18:05771

评论

发布
暂无评论
发现更多内容

STM32 非接触测温传感器 项目记录(ModbusRTU协议)

矜辰所致

stm32 ModbusRTU 10月月更 非接触测温

AI 应用的全流程存储加速方案技术解析和实践分享

Baidu AICLOUD

海量存储 高性能计算 高性能存储 AI加速

React-diff原理及应用

xiaofeng

React

前端编程培训学习就业有前途吗?

小谷哥

大数据开发培训机构有哪些?

小谷哥

Zebec 以 Layer2 的形式推出 Zebec Chain,流支付新时代来临了

EOSdreamer111

SPL 工业智能:识别指定工况

石臻臻的杂货铺

SPL 10月月更

音视频开发进阶——YUV与RGB的采样与存储格式

ZEGO即构

音视频开发

重磅来袭 | 尚硅谷数据湖Hudi视频教程发布

小谷哥

在线问题反馈模块实战(二):封装代码自动生成类文件器

bug菌

springboot 项目实战 10月月更

React的5种高级模式

夏天的味道123

React

深度理解Redux原理并实现一个redux

夏天的味道123

React

在DAYU200上实现OpenHarmony跳转拨号界面

OpenHarmony开发者

OpenHarmony

Zebec 以 Layer2 的形式推出 Zebec Chain,有望引发流支付赛道的新变革

股市老人

除了防火墙,还要部署什么设备才能保证服务器安全?

青藤云安全

网络安全 主机安全 青藤云安全

在线问题反馈模块实战(三):自动生成所有Controller、Service、Mapper等文件

bug菌

springboot 项目实战 10月月更

React高级特性之Context

夏天的味道123

React

testcontainers-java 新增对 TiDB 的支持

PingCAP

TiDB

不知道如何设计帮助中心?这里有解决办法!

Baklib

产品 效率工具 帮助中心 文档编辑

深度解析云安全责任共担模型

HummerCloud

10月月更

Zebec 以 Layer2 的形式推出 Zebec Chain,流支付新时达来临了

鳄鱼视界

高级特性之Render Props

夏天的味道123

React

前端培训学习好就业吗?

小谷哥

个推TechDay治数训练营第三期直播预告:分享数据指标体系搭建秘诀!

个推

数据中台 数据分析 指标体系 数据指标 指标中台; 数据分析

AntDB数据并行加载工具的实现

亚信AntDB数据库

大数据 AntDB AntDB数据库 企业号十月PK榜 企业号十月 PK 榜

上干货 | 园区智慧物联管理解决方案

AIRIOT

物联网 智慧园区 低代码开发 园区解决方案

在线问题反馈模块实战(一):梳理业务需求并创建数据库表

bug菌

springboot 项目实战 10月月更

一文读懂 DNS 解析的工作机制和优化挑战

融云 RongCloud

DNS

web前端开发培训学习合适吗?

小谷哥

Baklib电子产品手册制作,简单且实用

Baklib

国产CPU执行SPL实现数据库运算的性能实用性测试

石臻臻的杂货铺

数据库 SPL 10月月更

复杂多云环境下,七牛云日志管理在某大型银行的成功实践_服务革新_七牛云_InfoQ精选文章