【AICon】探索RAG 技术在实际应用中遇到的挑战及应对策略!AICon精华内容已上线73%>>> 了解详情
写点什么

Pandora 日志平台如何支撑业务智能?——在应用运维领域的案例分享

  • 2019-11-26
  • 本文字数:1976 字

    阅读完需:约 6 分钟

Pandora日志平台如何支撑业务智能?——在应用运维领域的案例分享

上一篇文章中,我们整理了 Pandora 在运营商数字电视业务中的实践案例,对 Pandora 如何进行业务全面化的实时监控和态势感知、为精细化运营提供数据支撑进行了详细的阐述。这一期我们将继续分享,Pandora 如何在应用运维中小试牛刀。


随着去 IOE 化的深入,生产系统逐步实现了分布式系统架构。且运营商业务种类复杂、系统繁多,随着微服务化的进一步推广,给各业务系统的运维带来了更高的挑战和要求。在这样复杂的部署环境中,如何通过实时日志数据分析,来快速高效地定位系统故障、排查问题、处理系统告警?如何在问题发生前就能够提前预警并处理呢?

关键词解析:智能应用运维+运营

中国移动某省公司为了更好地支撑一线销售人员进行产品推广,开发了一套应用工具,提供数据展示、政策发布、消息通知、宽带新装、套餐、流量、存送、终端、综合查询、外呼等核心业务的推广及代办能力,承接线上优惠券、预约单的协同销售模式。


各核心业务的销售管理和业务交付都依赖于这个系统,系统的良好运转也跟最终客户体验息息相关,如何提升产品服务的市场竞争力、系统问题的及时解决、性能自动优化等都是亟待解决的问题。

被动式故障监控

目前集群故障的发现主要是以被动方式为主,通过监控设备、组件、业务等 KPI 变化告警,故障发生之后甚至产品大量投诉后才开始进行故障排查,且传统的静态阈值监控很容易出现误报漏报的问题,监控视野受到局限。

故障定位难度大不及时

分布式环境下故障定位难度大、不及时。随着微服务架构推广,且涉及多个不同应用系统的交互,运维人员需要对海量的告警信息、系统操作日志、性能日志等进行综合分析,需要多个运维人员协同处理,依赖运维经验进行诊断分析。

集群参数静态调整

集群参数配置的好坏会影响集群的运维性能效率,吞吐率或上层用户使用感知;比如 YARN 容量参数调整,严重依赖人工经验。


那么我们如何应用 Pandora 来开展应用运维,借助平台强大的数据分析能力对海量业务日志进行实时统计、分析、检索及预警,监控端对端基础结构,避免服务性能降低或中断,关联并分析跨越多个系统的复杂事件,从而大大提升运维效率呢?

Pandora:实时智能应用运维系统

针对以上的痛点和现状,客户使用七牛云 Pandora 日志大数据平台来采集汇总各类应用系统日志,通过建立故障分析模型,在 Pandora 强大的实时数据处理能力支撑下快速定位故障、主动规避系统及业务风险。



客户智能运维系统架构图

丰富的数据源采集及灵活的读时解析规则

灵活支持各种数据源接入,包括文本文件、消息队列、数据库、tcp/udp/snmp 协议等多种数据源渠道,可以方便实现海量数据统一管理。客户的业务系统逻辑复杂,日志种类也比较繁多,按照传统的日志解析做法需要在日志写入时制定解析规则对数据进行字段提取,前期数据导入工作量繁重给运维人员带来了较大的压力,Pandora 为了解决这个问题,可以在数据输入到平台之后,在后续需要时读取做解析。通过数据中 KV 字段自动提取发现、JSON、XML 字段自动提取、划词辅助 + 正则表达式提取、固定分隔符数据提取、字段映射将原始字段映射为新字段等,同时也支持在搜索结果中使用正则表达式、Eval 计算等多种方式对数据进行二次解析。

灵活告警规则配置,实现全生命周期管理

对应用系统日志进行实时解析,并配置多层告警规则对用户办理线上业务过程进行实时统计监控、对故障进行判断,实现各业务量出现波动或异常波动时进行预警。另外通过补充告警规则,可以有效实现提前发现问题并及时解决。

故障根因分析实时高效

通过海量日志数据的实时聚合分析,帮助运维人员快速定位系统故障或业务问题,通过 SPL 建立故障分析模型关联分析多个系统日志,主动发现和规避系统、业务风险,提升客户满意度。在实时数据分析引擎及 SPL 的支持下,提供了八类系统错误原因分析并可以根据业务需求灵活扩充。

数据可视,生动灵活

在实现告警的基础上,Pandora 日志大数据平台的数据可视化模块提供功能丰富的可视化操作界面,让分析结果和发现的问题、风险第一时间实现态势感知,洞悉系统风险,提升对系统问题的发现识别、理解分析、响应处置能力,助力决策与行动,形成了整体日志助力应用运维的高效闭环解决方案。同时也帮助客户用更灵活易用的方式随时根据业务需求灵活调整分析指标、配置仪表盘和调整大屏展示内容,降低用户学习成本和心智负担。


持续业务扩展

随着 Pandora 在运营商技术架构中的深化应用,我们会不断扩展到更多条业务线的运营、运维场景中,成为运营商业务稳定稳固运行的根基和持续增长的强有力引擎。


Pandora 日志大数据平台也会持续演进,更会在**「关联复杂分析」「安全防护监控」「机器学习预测」**等领域持续发力,帮助行业的决策人员利用数据分析来实现高效运营和智能应用运维,实现可持续增长,提升整体管理效率。


本文转载自公众号七牛云(ID:qiniutek)。


原文链接:


https://mp.weixin.qq.com/s/hi4wv_BF_nAYwDpLyCG4tQ


2019-11-26 10:261260

评论

发布
暂无评论
发现更多内容

LinkedList 源码分析-初始化&节点查询

zarmnosaj

5月月更

开启分布式应用性能观测(APM)

观测云

可观测性 可观测

TDengine 在酷哞哞的应用

TDengine

数据库 tdengine 开源 物联网

[Day41]-[回溯]-全排列

方勇(gopher)

LeetCode 回溯算法 数据结构算法

携手数字人、数字空间、XR平台,阿里云与伙伴共同建设“新视界”

阿里云弹性计算

XR 数字人 视觉计算 瑶台

Docker学习记录

ZuccRoger

5月月更

B站S11破亿直播在线稳定性保障秘籍——演讲实录

TakinTalks稳定性社区

混沌工程 系统稳定性 全链路压测 安全生产

携手 TDengine,释普科技升级实验室仪器、监控智能方案

TDengine

数据库 tdengine 开源 物联网

加入MOVE,一起体验Move2Earn的运动乐趣

BlockChain先知

「国货」设计SaaS崛起,黑马inCreate自图冲出公装赛道

ToB行业头条

百度程序员Android开发小技巧

百度Geek说

移动端

架构7期模块1作业

Elvis FAN

架构实战营

为什么说 MongoDB 和 HBase 不适用于汽车行业的时序数据处理?

TDengine

数据库 tdengine 开源 时序数据库

要做研发高手,就是必须能看英文、写英文

TDengine

数据库 tdengine 开源

争夺存量用户关键战,助力企业构建完美标签体系丨01期直播回顾

袋鼠云数栈

大数据 数据中台

第三方 IP:管理半导体外部 IP

龙智—DevSecOps解决方案

perforce Methodics IPLM 管理 IP

netty系列之:在netty中实现线程和CPU绑定

程序那些事

Java Netty 程序那些事 5月月更

ApacheCon Asia 2022 强势来袭!16 大专题等你投稿!

阿里巴巴云原生

开源 云原生 活动

ShardingSphere 在东南亚|与科技保险公司 Fuse 的技术融合

SphereEx

Apache 开源 ShardingSphere SphereEx 数据库·

如何使用阿里云 CDN 对部署在函数计算上的静态网站进行缓存

阿里巴巴云原生

阿里云 Serverless 云原生 CDN 函数计算

学生管理系统架构设计图

Justin1024

TDengine在弘源泰平量化投资中的实践

TDengine

数据库 tdengine 开源 时序数据库

敏捷已死

方云AI研发绩效

场景实践 | 如何使用融云超级群构建游戏社区

融云 RongCloud

直播预约|数据指标体系如何搭建才最有效,从0到1带你快速入门

袋鼠云数栈

大数据 数据中台

【刷题第12天】58. 最后一个单词的长度

白日梦

5月月更

火爆的健身应用软件是如何一步一步打造出来的?

龙智—DevSecOps解决方案

DevOps perforce Helix Core

时间序列化数据库选型?时序数据库的选择?

TDengine

数据库 tdengine

为什么企业要告别自托管并迁移到 Atlassian 云版?

龙智—DevSecOps解决方案

Atlassian Atlassian 云版 Atlassian迁移

万字长文:手把手教你实现一套高效的IM长连接自适应心跳保活机制

JackJiang

TCP 网络编程 即时通讯 im开发 心跳保活

时序数据库的集群方案?

TDengine

数据库 tdengine 开源

Pandora日志平台如何支撑业务智能?——在应用运维领域的案例分享_文化 & 方法_七牛云_InfoQ精选文章