写点什么

Pandora 日志平台如何支撑业务智能?——在应用运维领域的案例分享

  • 2019-11-26
  • 本文字数:1976 字

    阅读完需:约 6 分钟

Pandora日志平台如何支撑业务智能?——在应用运维领域的案例分享

上一篇文章中,我们整理了 Pandora 在运营商数字电视业务中的实践案例,对 Pandora 如何进行业务全面化的实时监控和态势感知、为精细化运营提供数据支撑进行了详细的阐述。这一期我们将继续分享,Pandora 如何在应用运维中小试牛刀。


随着去 IOE 化的深入,生产系统逐步实现了分布式系统架构。且运营商业务种类复杂、系统繁多,随着微服务化的进一步推广,给各业务系统的运维带来了更高的挑战和要求。在这样复杂的部署环境中,如何通过实时日志数据分析,来快速高效地定位系统故障、排查问题、处理系统告警?如何在问题发生前就能够提前预警并处理呢?

关键词解析:智能应用运维+运营

中国移动某省公司为了更好地支撑一线销售人员进行产品推广,开发了一套应用工具,提供数据展示、政策发布、消息通知、宽带新装、套餐、流量、存送、终端、综合查询、外呼等核心业务的推广及代办能力,承接线上优惠券、预约单的协同销售模式。


各核心业务的销售管理和业务交付都依赖于这个系统,系统的良好运转也跟最终客户体验息息相关,如何提升产品服务的市场竞争力、系统问题的及时解决、性能自动优化等都是亟待解决的问题。

被动式故障监控

目前集群故障的发现主要是以被动方式为主,通过监控设备、组件、业务等 KPI 变化告警,故障发生之后甚至产品大量投诉后才开始进行故障排查,且传统的静态阈值监控很容易出现误报漏报的问题,监控视野受到局限。

故障定位难度大不及时

分布式环境下故障定位难度大、不及时。随着微服务架构推广,且涉及多个不同应用系统的交互,运维人员需要对海量的告警信息、系统操作日志、性能日志等进行综合分析,需要多个运维人员协同处理,依赖运维经验进行诊断分析。

集群参数静态调整

集群参数配置的好坏会影响集群的运维性能效率,吞吐率或上层用户使用感知;比如 YARN 容量参数调整,严重依赖人工经验。


那么我们如何应用 Pandora 来开展应用运维,借助平台强大的数据分析能力对海量业务日志进行实时统计、分析、检索及预警,监控端对端基础结构,避免服务性能降低或中断,关联并分析跨越多个系统的复杂事件,从而大大提升运维效率呢?

Pandora:实时智能应用运维系统

针对以上的痛点和现状,客户使用七牛云 Pandora 日志大数据平台来采集汇总各类应用系统日志,通过建立故障分析模型,在 Pandora 强大的实时数据处理能力支撑下快速定位故障、主动规避系统及业务风险。



客户智能运维系统架构图

丰富的数据源采集及灵活的读时解析规则

灵活支持各种数据源接入,包括文本文件、消息队列、数据库、tcp/udp/snmp 协议等多种数据源渠道,可以方便实现海量数据统一管理。客户的业务系统逻辑复杂,日志种类也比较繁多,按照传统的日志解析做法需要在日志写入时制定解析规则对数据进行字段提取,前期数据导入工作量繁重给运维人员带来了较大的压力,Pandora 为了解决这个问题,可以在数据输入到平台之后,在后续需要时读取做解析。通过数据中 KV 字段自动提取发现、JSON、XML 字段自动提取、划词辅助 + 正则表达式提取、固定分隔符数据提取、字段映射将原始字段映射为新字段等,同时也支持在搜索结果中使用正则表达式、Eval 计算等多种方式对数据进行二次解析。

灵活告警规则配置,实现全生命周期管理

对应用系统日志进行实时解析,并配置多层告警规则对用户办理线上业务过程进行实时统计监控、对故障进行判断,实现各业务量出现波动或异常波动时进行预警。另外通过补充告警规则,可以有效实现提前发现问题并及时解决。

故障根因分析实时高效

通过海量日志数据的实时聚合分析,帮助运维人员快速定位系统故障或业务问题,通过 SPL 建立故障分析模型关联分析多个系统日志,主动发现和规避系统、业务风险,提升客户满意度。在实时数据分析引擎及 SPL 的支持下,提供了八类系统错误原因分析并可以根据业务需求灵活扩充。

数据可视,生动灵活

在实现告警的基础上,Pandora 日志大数据平台的数据可视化模块提供功能丰富的可视化操作界面,让分析结果和发现的问题、风险第一时间实现态势感知,洞悉系统风险,提升对系统问题的发现识别、理解分析、响应处置能力,助力决策与行动,形成了整体日志助力应用运维的高效闭环解决方案。同时也帮助客户用更灵活易用的方式随时根据业务需求灵活调整分析指标、配置仪表盘和调整大屏展示内容,降低用户学习成本和心智负担。


持续业务扩展

随着 Pandora 在运营商技术架构中的深化应用,我们会不断扩展到更多条业务线的运营、运维场景中,成为运营商业务稳定稳固运行的根基和持续增长的强有力引擎。


Pandora 日志大数据平台也会持续演进,更会在**「关联复杂分析」「安全防护监控」「机器学习预测」**等领域持续发力,帮助行业的决策人员利用数据分析来实现高效运营和智能应用运维,实现可持续增长,提升整体管理效率。


本文转载自公众号七牛云(ID:qiniutek)。


原文链接:


https://mp.weixin.qq.com/s/hi4wv_BF_nAYwDpLyCG4tQ


2019-11-26 10:261668

评论

发布
暂无评论
发现更多内容

2023-06-18:给定一个长度为N的一维数组scores, 代表0~N-1号员工的初始得分, scores[i] = a, 表示i号员工一开始得分是a, 给定一个长度为M的二维数组operatio

福大大架构师每日一题

golang 算法 rust 福大大架构师每日一题

Vue3中常用的Composition(组合)API-ref(引用)函数

不觉心动

6 月 优质更文活动

IT知识百科:什么是OTN——光传送网?

wljslmz

6 月 优质更文活动

Kubernetes集群认证管理

穿过生命散发芬芳

6 月 优质更文活动

Vue3中常用的Composition(组合)API-初识setup

不觉心动

6 月 优质更文活动

做好演讲表达的道法术器(《如何激活你的表达思维》-- 培训收获)(68/100)

hackstoic

领导力 演讲 沟通

Backdata.net 搜索引擎

Larry

搜索引擎 导航网站

在人工智能冲击下,IT部门的生存价值在哪里?

FN0

AIGC

一文读懂ChatGPT的工作原理:大语言模型是个啥?它到底咋工作的?

禅道项目管理

#人工智能 ChatGPT AI 2022

Vue3中常用的Composition(组合)API-ref(引用)函数

不觉心动

6 月 优质更文活动

在 Go 中使用 sqlx 替代 database/sql 操作数据库

江湖十年

数据库 后端 sql Go 语言

华为云CodeArts Build快速上手编译构建-进阶玩家体验

华为云PaaS服务小智

云计算 编译 开发 华为云

飞书深诺多系统数据同步方案

飞书深诺技术团队

如何在 Linux 上列出磁盘?

wljslmz

6 月 优质更文活动

基于STM32的铁路自动围栏系统设计

DS小龙哥

6 月 优质更文活动

CSS小技巧之悬停3D发光效果

南城FE

CSS 前端 动画 3D 交互

当 Rokid 遇上函数计算

阿里巴巴云原生

阿里云 云原生 Rokid

C语言编程—语法练习

芯动大师

C语言 语法 6 月 优质更文活动

万字详解常用设计模式

越长大越悲伤

设计模式

微服务中「组件」集成

Java 架构

AI关于AI民主化的高见

FN0

AIGC

300行代码模拟cdn访问过程

蓝胖子的编程梦

CDN DNS CDN加速 CDN技术 #DNS

培育开源人才,助力开源生态发展|2023开放原子全球开源峰会校源行分论坛圆满落幕

开放原子开源基金会

开源 开放原子全球开源峰会 开放原子 校源行

xenomai内核解析--实时linux概述

沐多

RTOS 实时linux xenomai

数字化扶乩的最佳语言是英语?

FN0

AIGC

漫谈 SAP 产品里页面上的 Checkbox 设计与实现

汪子熙

SAP 前端设计 思爱普 6 月 优质更文活动

基础设施SIG月度动态:ABS新增ISO、VHD镜像构建,自动热补丁制作流程正式上线

OpenAnolis小助手

镜像 基础设施 龙蜥社区 sig abs

前端如何处理「并发」问题?

不叫猫先生

并发 axios 6 月 优质更文活动

如何评估大型语言模型(LLM)?

Baihai IDP

人工智能 深度学习 大模型 白海科技 大模型评估

Vue3中常用的Composition(组合)API-watch(监视)函数

不觉心动

6 月 优质更文活动

使用华为云AstroZero,不用一行代码,制作端午节加班申请模板

华为云PaaS服务小智

云计算 零代码 华为云

Pandora日志平台如何支撑业务智能?——在应用运维领域的案例分享_文化 & 方法_七牛云_InfoQ精选文章