写点什么

Pandora 日志平台如何支撑业务智能?——在应用运维领域的案例分享

  • 2019-11-26
  • 本文字数:1976 字

    阅读完需:约 6 分钟

Pandora日志平台如何支撑业务智能?——在应用运维领域的案例分享

上一篇文章中,我们整理了 Pandora 在运营商数字电视业务中的实践案例,对 Pandora 如何进行业务全面化的实时监控和态势感知、为精细化运营提供数据支撑进行了详细的阐述。这一期我们将继续分享,Pandora 如何在应用运维中小试牛刀。


随着去 IOE 化的深入,生产系统逐步实现了分布式系统架构。且运营商业务种类复杂、系统繁多,随着微服务化的进一步推广,给各业务系统的运维带来了更高的挑战和要求。在这样复杂的部署环境中,如何通过实时日志数据分析,来快速高效地定位系统故障、排查问题、处理系统告警?如何在问题发生前就能够提前预警并处理呢?

关键词解析:智能应用运维+运营

中国移动某省公司为了更好地支撑一线销售人员进行产品推广,开发了一套应用工具,提供数据展示、政策发布、消息通知、宽带新装、套餐、流量、存送、终端、综合查询、外呼等核心业务的推广及代办能力,承接线上优惠券、预约单的协同销售模式。


各核心业务的销售管理和业务交付都依赖于这个系统,系统的良好运转也跟最终客户体验息息相关,如何提升产品服务的市场竞争力、系统问题的及时解决、性能自动优化等都是亟待解决的问题。

被动式故障监控

目前集群故障的发现主要是以被动方式为主,通过监控设备、组件、业务等 KPI 变化告警,故障发生之后甚至产品大量投诉后才开始进行故障排查,且传统的静态阈值监控很容易出现误报漏报的问题,监控视野受到局限。

故障定位难度大不及时

分布式环境下故障定位难度大、不及时。随着微服务架构推广,且涉及多个不同应用系统的交互,运维人员需要对海量的告警信息、系统操作日志、性能日志等进行综合分析,需要多个运维人员协同处理,依赖运维经验进行诊断分析。

集群参数静态调整

集群参数配置的好坏会影响集群的运维性能效率,吞吐率或上层用户使用感知;比如 YARN 容量参数调整,严重依赖人工经验。


那么我们如何应用 Pandora 来开展应用运维,借助平台强大的数据分析能力对海量业务日志进行实时统计、分析、检索及预警,监控端对端基础结构,避免服务性能降低或中断,关联并分析跨越多个系统的复杂事件,从而大大提升运维效率呢?

Pandora:实时智能应用运维系统

针对以上的痛点和现状,客户使用七牛云 Pandora 日志大数据平台来采集汇总各类应用系统日志,通过建立故障分析模型,在 Pandora 强大的实时数据处理能力支撑下快速定位故障、主动规避系统及业务风险。



客户智能运维系统架构图

丰富的数据源采集及灵活的读时解析规则

灵活支持各种数据源接入,包括文本文件、消息队列、数据库、tcp/udp/snmp 协议等多种数据源渠道,可以方便实现海量数据统一管理。客户的业务系统逻辑复杂,日志种类也比较繁多,按照传统的日志解析做法需要在日志写入时制定解析规则对数据进行字段提取,前期数据导入工作量繁重给运维人员带来了较大的压力,Pandora 为了解决这个问题,可以在数据输入到平台之后,在后续需要时读取做解析。通过数据中 KV 字段自动提取发现、JSON、XML 字段自动提取、划词辅助 + 正则表达式提取、固定分隔符数据提取、字段映射将原始字段映射为新字段等,同时也支持在搜索结果中使用正则表达式、Eval 计算等多种方式对数据进行二次解析。

灵活告警规则配置,实现全生命周期管理

对应用系统日志进行实时解析,并配置多层告警规则对用户办理线上业务过程进行实时统计监控、对故障进行判断,实现各业务量出现波动或异常波动时进行预警。另外通过补充告警规则,可以有效实现提前发现问题并及时解决。

故障根因分析实时高效

通过海量日志数据的实时聚合分析,帮助运维人员快速定位系统故障或业务问题,通过 SPL 建立故障分析模型关联分析多个系统日志,主动发现和规避系统、业务风险,提升客户满意度。在实时数据分析引擎及 SPL 的支持下,提供了八类系统错误原因分析并可以根据业务需求灵活扩充。

数据可视,生动灵活

在实现告警的基础上,Pandora 日志大数据平台的数据可视化模块提供功能丰富的可视化操作界面,让分析结果和发现的问题、风险第一时间实现态势感知,洞悉系统风险,提升对系统问题的发现识别、理解分析、响应处置能力,助力决策与行动,形成了整体日志助力应用运维的高效闭环解决方案。同时也帮助客户用更灵活易用的方式随时根据业务需求灵活调整分析指标、配置仪表盘和调整大屏展示内容,降低用户学习成本和心智负担。


持续业务扩展

随着 Pandora 在运营商技术架构中的深化应用,我们会不断扩展到更多条业务线的运营、运维场景中,成为运营商业务稳定稳固运行的根基和持续增长的强有力引擎。


Pandora 日志大数据平台也会持续演进,更会在**「关联复杂分析」「安全防护监控」「机器学习预测」**等领域持续发力,帮助行业的决策人员利用数据分析来实现高效运营和智能应用运维,实现可持续增长,提升整体管理效率。


本文转载自公众号七牛云(ID:qiniutek)。


原文链接:


https://mp.weixin.qq.com/s/hi4wv_BF_nAYwDpLyCG4tQ


2019-11-26 10:261735

评论

发布
暂无评论
发现更多内容

容器与虚拟机的区别与关系

天翼云开发者社区

云计算 容器 虚拟机

英伟达视角下的 2025:AI智能体元年

GPU算力

英伟达 AI Agent AI 智能体 Swarm magentic-one

京东API接口详解:轻松获取商品详情与SKU信息(1次15个),提升业务效率

代码忍者

京东API接口

以太坊项目日渐冷门:以太坊链项目开发的现状与未来

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

《深入浅出Apache Spark》系列⑤:Spark SQL的表达式优化

数新网络官方账号

sql

淘宝天猫API接口深度解析:如何高效利用商品详情与关键词搜索商品列表功能

代码忍者

API 接口 pinduoduo API

《Django 5 By Example》阅读笔记:p561-p613

codists

Python django

软件测试常用抓包工具 Charles 与 Fiddler

测试人

软件测试

Flutter OHOS flutter appscheme插件

flfljh

Flutter OHOS flutter_dart_native

flfljh

Walgreens商品详情API接口的开发应用与收益

科普小能手

数据分析 爬虫 跨境电商 API 接口 API 测试

揭秘南京大学人工智能通识教育,和鲸Heywhale上线人工智能通识课一体化解决方案

ModelWhale

Python 人工智能 大数据 教改

犬类癌症检测(CANDiD)研究:使用独立测试集对1000多只犬进行基于高通量测序的多癌种早期检测"液体活检"血液测试的临床验证

INSVAST

生信服务 液体活检 生信分析 Sentieon 变异检测

天翼云全栈混合云应用场景

天翼云开发者社区

云计算 混合云 天翼云

AlertDialog的简易使用

flfljh

Flutter OHOS harmony_fluwx 集成微信服务(二)

flfljh

NFTScan | 12.09~12.15 NFT 市场热点汇总

NFT Research

NFT #Web3

SPICE协议浅析

天翼云开发者社区

云计算 远程控制

阿里云大模型矩阵:千问&Qwen解锁多元智能

测吧(北京)科技有限公司

测试

自动化测试AI智能体:掌握AI,人人都是自动化测试工程师

测吧(北京)科技有限公司

测试

Flex 组件的简略使用

flfljh

从单一领域到系统级仿真与优化:Altair在消费电子产品设计中的应用

Altair RapidMiner

制造 仿真 altair Hypermesh jabra

Capture One Studio for Mac中文直装 专业RAW照片处理软件

小玖_苹果Mac软件

反向代购新风尚:创业者出海的新蓝海

代码忍者

代购系统 跨境独立站 反向淘宝代购集运系统

7个指标看本轮加密货币牛市走到哪一步

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 代币开发 链游开发公链开发

2024年用户喜爱的Top5云电脑排名!没想到黑马是这家

小喵子

云电脑 云游戏 ToDesk云电脑 云电竞 网易云游戏电脑

Pandora日志平台如何支撑业务智能?——在应用运维领域的案例分享_文化 & 方法_七牛云_InfoQ精选文章