Pandora 日志平台如何支撑业务智能?——在应用运维领域的案例分享

阅读数:362 2019 年 11 月 26 日 10:26

Pandora日志平台如何支撑业务智能?——在应用运维领域的案例分享

上一篇文章中,我们整理了 Pandora 在运营商数字电视业务中的实践案例,对 Pandora 如何进行业务全面化的实时监控和态势感知、为精细化运营提供数据支撑进行了详细的阐述。这一期我们将继续分享,Pandora 如何在应用运维中小试牛刀。

随着去 IOE 化的深入,生产系统逐步实现了分布式系统架构。且运营商业务种类复杂、系统繁多,随着微服务化的进一步推广,给各业务系统的运维带来了更高的挑战和要求。在这样复杂的部署环境中,如何通过实时日志数据分析,来快速高效地定位系统故障、排查问题、处理系统告警?如何在问题发生前就能够提前预警并处理呢?

关键词解析:智能应用运维 + 运营

中国移动某省公司为了更好地支撑一线销售人员进行产品推广,开发了一套应用工具,提供数据展示、政策发布、消息通知、宽带新装、套餐、流量、存送、终端、综合查询、外呼等核心业务的推广及代办能力,承接线上优惠券、预约单的协同销售模式。

各核心业务的销售管理和业务交付都依赖于这个系统,系统的良好运转也跟最终客户体验息息相关,如何提升产品服务的市场竞争力、系统问题的及时解决、性能自动优化等都是亟待解决的问题。

被动式故障监控

目前集群故障的发现主要是以被动方式为主,通过监控设备、组件、业务等 KPI 变化告警,故障发生之后甚至产品大量投诉后才开始进行故障排查,且传统的静态阈值监控很容易出现误报漏报的问题,监控视野受到局限。

故障定位难度大不及时

分布式环境下故障定位难度大、不及时。随着微服务架构推广,且涉及多个不同应用系统的交互,运维人员需要对海量的告警信息、系统操作日志、性能日志等进行综合分析,需要多个运维人员协同处理,依赖运维经验进行诊断分析。

集群参数静态调整

集群参数配置的好坏会影响集群的运维性能效率,吞吐率或上层用户使用感知;比如 YARN 容量参数调整,严重依赖人工经验。

那么我们如何应用 Pandora 来开展应用运维,借助平台强大的数据分析能力对海量业务日志进行实时统计、分析、检索及预警,监控端对端基础结构,避免服务性能降低或中断,关联并分析跨越多个系统的复杂事件,从而大大提升运维效率呢?

Pandora:实时智能应用运维系统

针对以上的痛点和现状,客户使用七牛云 Pandora 日志大数据平台来采集汇总各类应用系统日志,通过建立故障分析模型,在 Pandora 强大的实时数据处理能力支撑下快速定位故障、主动规避系统及业务风险。

Pandora日志平台如何支撑业务智能?——在应用运维领域的案例分享

客户智能运维系统架构图

丰富的数据源采集及灵活的读时解析规则

灵活支持各种数据源接入,包括文本文件、消息队列、数据库、tcp/udp/snmp 协议等多种数据源渠道,可以方便实现海量数据统一管理。客户的业务系统逻辑复杂,日志种类也比较繁多,按照传统的日志解析做法需要在日志写入时制定解析规则对数据进行字段提取,前期数据导入工作量繁重给运维人员带来了较大的压力,Pandora 为了解决这个问题,可以在数据输入到平台之后,在后续需要时读取做解析。通过数据中 KV 字段自动提取发现、JSON、XML 字段自动提取、划词辅助 + 正则表达式提取、固定分隔符数据提取、字段映射将原始字段映射为新字段等,同时也支持在搜索结果中使用正则表达式、Eval 计算等多种方式对数据进行二次解析。

灵活告警规则配置,实现全生命周期管理

对应用系统日志进行实时解析,并配置多层告警规则对用户办理线上业务过程进行实时统计监控、对故障进行判断,实现各业务量出现波动或异常波动时进行预警。另外通过补充告警规则,可以有效实现提前发现问题并及时解决。

故障根因分析实时高效

通过海量日志数据的实时聚合分析,帮助运维人员快速定位系统故障或业务问题,通过 SPL 建立故障分析模型关联分析多个系统日志,主动发现和规避系统、业务风险,提升客户满意度。在实时数据分析引擎及 SPL 的支持下,提供了八类系统错误原因分析并可以根据业务需求灵活扩充。

数据可视,生动灵活

在实现告警的基础上,Pandora 日志大数据平台的数据可视化模块提供功能丰富的可视化操作界面,让分析结果和发现的问题、风险第一时间实现态势感知,洞悉系统风险,提升对系统问题的发现识别、理解分析、响应处置能力,助力决策与行动,形成了整体日志助力应用运维的高效闭环解决方案。同时也帮助客户用更灵活易用的方式随时根据业务需求灵活调整分析指标、配置仪表盘和调整大屏展示内容,降低用户学习成本和心智负担。

Pandora日志平台如何支撑业务智能?——在应用运维领域的案例分享

持续业务扩展

随着 Pandora 在运营商技术架构中的深化应用,我们会不断扩展到更多条业务线的运营、运维场景中,成为运营商业务稳定稳固运行的根基和持续增长的强有力引擎。

Pandora 日志大数据平台也会持续演进,更会在 **「关联复杂分析」「安全防护监控」「机器学习预测」** 等领域持续发力,帮助行业的决策人员利用数据分析来实现高效运营和智能应用运维,实现可持续增长,提升整体管理效率。

本文转载自公众号七牛云(ID:qiniutek)。

原文链接:

https://mp.weixin.qq.com/s/hi4wv_BF_nAYwDpLyCG4tQ

评论

发布