【AICon】开辟产业应用新天地,大模型重塑各行各业,精华内容上线58%!>>> 了解详情
写点什么

复杂多云环境下, 七牛云日志管理在某大型银行的成功实践

  • 2019-10-10
  • 本文字数:2398 字

    阅读完需:约 8 分钟

复杂多云环境下,七牛云日志管理在某大型银行的成功实践

银行作为国民经济的重要组成部门,具有信息高度敏感,数据量巨大的特性。同时银行作为信用中介,还必须以防范风险为前提。


七牛云智能日志管理平台的客户银行,作为国内市值前五的大型银行,用户体验极佳,服务贴心高效,信用卡交易额国内领先。但在业务扩张,尤其是自 2017 年底新兴互联网业务爆发式增长后,客户银行的运维部门也承担着越来越重的压力。


相信客户银行在复杂多云环境下的日志管理实践,也对国内同类企业有着一定的借鉴意义,今天特此做使用七牛云 Pandora 智能日志管理系统在多云环境管理场景下的探索和实践分享。

项目难点

-混合云部署方式,存在多个集群部署在不同环境、不同系统存在异构或者日志来源不同的情况


-需要管理的业务系统超上千个,多套云上环境


-必须支持复杂查询和运维排障;并做到日志的实时查询、准实时汇总统计及全量数据监控


-需要对接已有的行内账号体系和告警平台


-客户希望将运维部门由成本部门转化为利润部门

项目实施前

这家银行早期使用 ELK 自建了一套日志管理平台,初期运营良好。但自从 2017 年底,银行的新兴互联网业务开始呈现爆发式增长,导致系统日志数量也随之剧增,每日新增日志数量超过几十 T。各种新的业务系统以极快速度开发上线,同时相关业务需求也在增加,给运维带来了机器资源管理及系统管理的巨大压力,日志系统的压力也越来越大。


随着管理系统的增加,开发人员的功能需求也随之增加,希望在日志系统上新增各种查询和复杂统计分析。例如:


-及时定位业务系统异常,限定各类条件的百亿级日志秒级故障查询


-根据不同条件,进行业务情况的分钟级汇总统计


-保障各业务部门数据安全访问和资源分配问题需要的灵活细粒度的多租户管控


等等


自建的 ELK 系统面对这样的情况,需要企业投入更大的运维团队来做维护,并且现有技术能力难以解决 ELK 性能及稳定性问题,短期内无法跟上暴增的业务发展需求。同时,随着数据量不断增长,日志的实时查询、准实时汇总统计及全量数据监控成为了一个难点和瓶颈,一直没有找到合适的解决方式。


面对这样的情况,客户银行急需构建一个具有技术前瞻性的平台良好对接已有的行内账号体系和告警平台。综合考虑之后,决定采购七牛云 Pandora 智能日志管理平台来应对互联网业务突增的多云管理。

引入 Pandora

客户银行首先将云上互联网业务的应用日志打入 Pandora 平台,借助平台脚本执行功能实现开机时数据采集 agent 的自动部署,实时采集了包括行内费用 Top5 的项目日志和机器性能监控指标数据,通过该类日志提供复杂查询分析、问题定位和 metric 的实时监控分析及告警功能,并无缝对接已有的行内账号体系和告警平台。


由于 Pandora 对于权限的控制高度灵活及精细化,可以支撑银行对于资源灵活分配及数据安全的基本需求。同时新增了实时状态监控和告警全生命周期管理,如果出现异常会通过 http、邮件、微信、短信等方式告警。


确定方案后,迅速调整了项目架构,该多云环境下的统一日志管理平台架构如下所示:



图 1:系统架构图


在初步几个重点云上互联网应用项目实施成功后,银行决定加深对于 Pandora 的使用。决定将各种网络设备、存储日志及现有银行业务系统日志均汇总到 Pandora 中,并根据七牛云日志产品团队的建议和协助部署各类监控。为更好的洞察日志中的异常,第一时间发现异常日志之后,七牛云日志平台 Pandora 会将异常告警通过 http 接口回调给到行内告警和运维自愈模块,收到告警信息后,自愈系统会根据不同告警内容对应的愈合逻辑做对应的异常处理,保证第一时间恢复应用的可用性。

更大规模使用

客户银行在接下去的 6 个月内将所有现有的互联网业务迁移到 Pandora,并完成了与行内账号体系的完整对接。


本阶段主要以缩减成本为主题,更好的为采购部、审计部、分行上云提供审计数据输出,整合混合云账单相关费用信息、初期采集的相关监控负载信息(包括 服务器、数据库、缓存系统等产品的监控、计量信息)和以项目为单位的业务量,提供一份完善可供审计的费用-资源-业务量报表。针对账号操作类,使用 audit trail 实现账号的安全审计,建立一个完善的安全审计策略。


同时,由于 Pandora 的性能可靠和易用性(可视化操作界面),银行目前已将 Pandora 作为一个很重要的日志管理方案,在项目启动时会要求项目日志接入 Pandora。


目前,客户银行部署集群共几十个数据节点,接入上百个业务应用,管理上千台服务器性能指标,接入 Pandora 的日志数据日增量已达几十 T 并持续增长,数据量过千亿,支撑了每天过亿的访问,并提供千万级别的数据监控服务,高峰 QPS 过万。


目前 Pandora 平台在客户银行内部运行非常稳健,Pandora 经过公有云大规模集群长期服务验证,在用户数据量增长时,集群的性能可以随之线性增长,平台自带高可用和动态扩容。业务侧的开发人员在使用 Pandora 平台的过程中学习成本极低,同时自带应用市场提供很多开箱即用级应用。在持续一年多的使用中,Pandora 团队一直与客户银行保持紧密的沟通和交流,将平台新研发特性同步在客户侧进行更新迭代,互相之间也频繁紧密的进行技术和使用方面的沟通,便于 Pandora 更好的满足用户的业务需求以及降低用户使用的心智负担。

未来展望

当业务日志逐步完成平台对接后,客户银行从 2019 年开始推动利用 Pandora 实现数据智能的目标。本阶段需要充分挖掘并发挥数据价值,通过现有日志平台的数据实现异常智能预警及数据智能分类,同时针对安全合规的需求,Pandora 可以利用数据智能帮助客户银行定义安全事件、制定合规策略等。


预计 2019 年底,Pandora 集群将会实现异地多中心部署,共计接入机器上万台,这将给开发和运维带来了一定的挑战。Pandora 同时提供多集群的便捷管理方案以及支持基于 K8S 来自动管理和调度实例。可以预见,随着客户银行的深入使用,Pandora 的实例数和接入机器数会继续以较快的速度增长和扩容。


本文转载自公众号七牛云(ID:qiniutek)。


原文链接:


https://mp.weixin.qq.com/s/nkDCa4TtYL30lfFGcMM2fg


2019-10-10 18:05753

评论

发布
暂无评论
发现更多内容

产品训练营第四章作业(二)

Arnold

产品经理是吃青春饭的吗?

涛哥 数字产品和业务架构

产品经理

Mybatis【19】-- Mybatis自关联多对多查询

秦怀杂货店

梦境交互:做个现代灵媒,考虑一下?

脑极体

New转乾坤——云网融合真正的打开方式!

脑极体

Mybatis【20】-- Mybatis延迟加载怎么处理?

秦怀杂货店

数据库 缓存 mybatis 加载

真正的勇士,敢于重新开始,敢于再次开始😂

Nydia

如何监控Nginx的upstream后端server

运维研习社

nginx 负载均衡 zabbi

28天瞎写的第二百四十一天:正念是不是迷信、玄学、神棍?

树上

冥想 28天写作 正念 迷信

三、创建、更新和删除文档

Kylin

读书笔记 七日更 分布式数据库mongodb 二月春节不断更

压力太大的话,就放点气儿吧

道伟

28天写作

Eclipse快捷键大全

lnngle

Java eclipse 快捷键

LeetCode 采坑两次后,我终于学会了 BFS

与你一起学算法

Python BFS 数据结构与算法

面试系列一:精选大数据面试真题10道(混合型)-附答案详细解析

五分钟学大数据

大数据 面试 28天写作

lua 对象编程解读

程序员与厨子

lua 学习 编程

week13作业

zbest

Elasticsearch 组合查询

escray

elastic 七日更 28天写作 死磕Elasticsearch 60天通过Elastic认证考试 2月春节不断更

Impala 3.4在网易的最新实践

DataFunTalk

第5周作业_贷款申请流程图

园子

互联网金融

python爬虫-学习urllib和requests使用,模拟请求

大佬sam

二月春节不断更

什么容易被记住——造梦师指南

Justin

心理学 28天写作 游戏设计

聊聊如何做好计划

数列科技杨德华

28天写作

遇见ZooKeeper:初识

Jackey

zookeeper

我的配置中心知识整理

老白鹿

微服务 技术选型 配置中心 配置管理

程序员心中的一道坎:主存的编址与计算和串并联系统!

冰河

程序员 操作系统 计算 编址 串并联系统

MYSQL 索引篇(上)

new life

MySQL性能优化 执行计划 MySQL使用 索引性能

MYSQL 索引篇(下)

new life

MySQL MySQL性能优化 多字段联合验证 索引性能

(28DW-S8-Day3) 比特币、 区块链是什么?

mtfelix

比特币 区块链 28天写作

ConcurrentBag 听过没?好家伙高并发知识点十分密集!一种并发优化思路!

yes

Java 面试 并发

Selenium 八大定位,滚雪球学 Python 番外系列

梦想橡皮擦

Python 28天写作 2月春节不断更

【管理笔记11】优秀人才的十二个特质

L3C老司机

28天写作

复杂多云环境下,七牛云日志管理在某大型银行的成功实践_服务革新_七牛云_InfoQ精选文章