写点什么

Pandora 日志平台如何支撑业务智能?——在应用运维领域的案例分享

  • 2019-11-26
  • 本文字数:1976 字

    阅读完需:约 6 分钟

Pandora日志平台如何支撑业务智能?——在应用运维领域的案例分享

上一篇文章中,我们整理了 Pandora 在运营商数字电视业务中的实践案例,对 Pandora 如何进行业务全面化的实时监控和态势感知、为精细化运营提供数据支撑进行了详细的阐述。这一期我们将继续分享,Pandora 如何在应用运维中小试牛刀。


随着去 IOE 化的深入,生产系统逐步实现了分布式系统架构。且运营商业务种类复杂、系统繁多,随着微服务化的进一步推广,给各业务系统的运维带来了更高的挑战和要求。在这样复杂的部署环境中,如何通过实时日志数据分析,来快速高效地定位系统故障、排查问题、处理系统告警?如何在问题发生前就能够提前预警并处理呢?

关键词解析:智能应用运维+运营

中国移动某省公司为了更好地支撑一线销售人员进行产品推广,开发了一套应用工具,提供数据展示、政策发布、消息通知、宽带新装、套餐、流量、存送、终端、综合查询、外呼等核心业务的推广及代办能力,承接线上优惠券、预约单的协同销售模式。


各核心业务的销售管理和业务交付都依赖于这个系统,系统的良好运转也跟最终客户体验息息相关,如何提升产品服务的市场竞争力、系统问题的及时解决、性能自动优化等都是亟待解决的问题。

被动式故障监控

目前集群故障的发现主要是以被动方式为主,通过监控设备、组件、业务等 KPI 变化告警,故障发生之后甚至产品大量投诉后才开始进行故障排查,且传统的静态阈值监控很容易出现误报漏报的问题,监控视野受到局限。

故障定位难度大不及时

分布式环境下故障定位难度大、不及时。随着微服务架构推广,且涉及多个不同应用系统的交互,运维人员需要对海量的告警信息、系统操作日志、性能日志等进行综合分析,需要多个运维人员协同处理,依赖运维经验进行诊断分析。

集群参数静态调整

集群参数配置的好坏会影响集群的运维性能效率,吞吐率或上层用户使用感知;比如 YARN 容量参数调整,严重依赖人工经验。


那么我们如何应用 Pandora 来开展应用运维,借助平台强大的数据分析能力对海量业务日志进行实时统计、分析、检索及预警,监控端对端基础结构,避免服务性能降低或中断,关联并分析跨越多个系统的复杂事件,从而大大提升运维效率呢?

Pandora:实时智能应用运维系统

针对以上的痛点和现状,客户使用七牛云 Pandora 日志大数据平台来采集汇总各类应用系统日志,通过建立故障分析模型,在 Pandora 强大的实时数据处理能力支撑下快速定位故障、主动规避系统及业务风险。



客户智能运维系统架构图

丰富的数据源采集及灵活的读时解析规则

灵活支持各种数据源接入,包括文本文件、消息队列、数据库、tcp/udp/snmp 协议等多种数据源渠道,可以方便实现海量数据统一管理。客户的业务系统逻辑复杂,日志种类也比较繁多,按照传统的日志解析做法需要在日志写入时制定解析规则对数据进行字段提取,前期数据导入工作量繁重给运维人员带来了较大的压力,Pandora 为了解决这个问题,可以在数据输入到平台之后,在后续需要时读取做解析。通过数据中 KV 字段自动提取发现、JSON、XML 字段自动提取、划词辅助 + 正则表达式提取、固定分隔符数据提取、字段映射将原始字段映射为新字段等,同时也支持在搜索结果中使用正则表达式、Eval 计算等多种方式对数据进行二次解析。

灵活告警规则配置,实现全生命周期管理

对应用系统日志进行实时解析,并配置多层告警规则对用户办理线上业务过程进行实时统计监控、对故障进行判断,实现各业务量出现波动或异常波动时进行预警。另外通过补充告警规则,可以有效实现提前发现问题并及时解决。

故障根因分析实时高效

通过海量日志数据的实时聚合分析,帮助运维人员快速定位系统故障或业务问题,通过 SPL 建立故障分析模型关联分析多个系统日志,主动发现和规避系统、业务风险,提升客户满意度。在实时数据分析引擎及 SPL 的支持下,提供了八类系统错误原因分析并可以根据业务需求灵活扩充。

数据可视,生动灵活

在实现告警的基础上,Pandora 日志大数据平台的数据可视化模块提供功能丰富的可视化操作界面,让分析结果和发现的问题、风险第一时间实现态势感知,洞悉系统风险,提升对系统问题的发现识别、理解分析、响应处置能力,助力决策与行动,形成了整体日志助力应用运维的高效闭环解决方案。同时也帮助客户用更灵活易用的方式随时根据业务需求灵活调整分析指标、配置仪表盘和调整大屏展示内容,降低用户学习成本和心智负担。


持续业务扩展

随着 Pandora 在运营商技术架构中的深化应用,我们会不断扩展到更多条业务线的运营、运维场景中,成为运营商业务稳定稳固运行的根基和持续增长的强有力引擎。


Pandora 日志大数据平台也会持续演进,更会在**「关联复杂分析」「安全防护监控」「机器学习预测」**等领域持续发力,帮助行业的决策人员利用数据分析来实现高效运营和智能应用运维,实现可持续增长,提升整体管理效率。


本文转载自公众号七牛云(ID:qiniutek)。


原文链接:


https://mp.weixin.qq.com/s/hi4wv_BF_nAYwDpLyCG4tQ


2019-11-26 10:261755

评论

发布
暂无评论
发现更多内容

一文读懂注解的底层原理

老周聊架构

三周年连更

Intent的基本使用

芯动大师

组件 intentservice 三周年连更

API渗透测试之漏洞发现

阿泽🧸

三周年连更

Go语言开发小技巧&易错点100例(四)

闫同学

三周年连更

霸榜Github三个月的「架构师成长手册」!成为架构师竟然也有捷径

Java你猿哥

Java 分布式 架构设计 架构师 SSM框架

第五元素奏鸣曲:企业的新数据之道

脑极体

数据

Java Stream常见用法汇总,开发效率大幅提升

程序员大彬

Java java8

一个强大的go生产力工具,极大的提高开发效率、缩短开发项目时间和人工成本

vison

微服务 gRPC Go 语言 gin 代码自动生成

深度分析:SpringBoot中自定义starter实例与原理

Java你猿哥

spring Spring Boot SSM框架 Spring boot starter test

糟了,生产环境数据竟然不一致,人麻了!

冰河

MySQL 数据库 数据一致性 数据存储

C生万物 | 分支和循环语句【内含众多经典案例】

Fire_Shield

C语言 三周年连更

缓存失效后的解决方案

穿过生命散发芬芳

缓存 三周年连更

鲲鹏DevKit原生开发,效率倍增使能极简开发

乌龟哥哥

鲲鹏 DevKit 三周年连更

【坚果派 - 坚果】OpenHarmony编译命令

坚果

OpenHarmony 三周年征文 三周年连更

Unity 之 Post Processing后处理不同项目配置(UPR项目配置)

陈言必行

Unity 三周年连更

终于拿到了爆火全网的进一线大厂程序员必看的1700道java面试题

Java java面试 Java八股文 Java面试题 Java面试八股文

SpringBoot中如何解决Redis的缓存穿透、缓存击穿、缓存雪崩?

小程序生命周期

程序员海军

三周年连更

优化用户旅程:提升4S店销售管理系统的市场竞争力

L3C老司机

产品 产品设计 数字化 用户旅程 服务蓝图

硬核!阿里P8自爆春招面试核心手册,Github上获赞65.7K

Java java面试 Java八股文 Java面试题 Java面试八股文

盘点一下市面上常见的八种光纤接头,网络工程师你知道几个?

wljslmz

三周年连更

用情景领导力帮助团队管理-1

搬砖的周狮傅

AI日课@20230413:Prompt Engineering 02 - 原则

无人之路

ChatGPT

Java并行流:一次搞定多线程编程难题,让你的程序飞起来!

Java你猿哥

Java 多线程 SSM框架 java 并发

Django笔记九之model查询filter、exclude、annotate、order_by

Hunter熊

Python django alias annotate order_by

Spring 事务及传播机制原理详解

Java spring 事务

2023-4-13 某SAP项目面试小记

SAP虾客

SAP EWM SAP Ariba SAP Workflow SAP PM

Java面向对象编程基础

timerring

Java

京东面试题:说说synchronized和volatile的区别

Java volatile JMM synchronized

本周参加两个SAP项目面试后的感想

SAP虾客

面试 SAP项目 行业经验

终于拿到了阿里技术专家分享的552页大型网站架构实战文档

Java 架构 网站架构

Pandora日志平台如何支撑业务智能?——在应用运维领域的案例分享_文化 & 方法_七牛云_InfoQ精选文章