写点什么

全流程监控治理平台

  • 2020-03-22
  • 本文字数:1774 字

    阅读完需:约 6 分钟

全流程监控治理平台

系统整体介绍

环路监控系统,是以用户行为为维度,对系统和整个业务流程进行链路监控的平台。避免系统问题被运营客诉反馈,被动应对,它帮助我们主动发现业务异常。每一个流程内的节点在发生挤压、停留、重试时,提供精准监控并实时报警,给我们争取解决问题的时间。并且可以对业务发生的金额进行把控,在业务发生资损时第一时间控制住,在金额上提供日、周、月各维度全景图展示,同时可在高风险金额节点重点把控。后续,系统可在监控到节点异常时向外部系统发送消息,收到消息的系统可自动进行降级、锁定、追损、拦截等操作。主要有以下五个亮点:


一、清晰展示业务流程链路,业务链路中的每一个核心节点都有完整的数据展示,流量、重试量、流转方向、红绿灯等。


二、精准定位数据滞留节点,数据通透性、流转性都清晰的展示在链路节点上,当发生滞留时能马上实时知道数据走向与滞留数量,并可以下钻到具体滞留用户。


三、快速抽取异常流程数据,当发生异常需要紧急对用户进行处理时,可以将异常数据快速定位,查出具体哪些人受到影响,以及影响范围,事态严重程度等信息。


四、准确溯源所属服务实例,业务异常最终可定位到具体的运行机器,方便底层研发查询使用,快速做出判断,同时找到根本原因是研发、运营、还是外部问题等。


五、灵活监控运算公式配置,系统内公式引擎支持用户自主配置监控公式,可监控到:滞留、重试、比率、数量、金额等,同时可以跨业务模版进行金额出入比对监控,为后续资金对账做准备。

页面展示

下面介绍一下两个重点页面:

一、数据监测

页面清晰地展示需要监控的每个流程:整体指标、节点数据等,每个绿色方块表示流程中的节点,里面有节点信息和数据,当方块颜色变黄(如下图)就表示此节点有数据滞留,里面数据也将精确展示滞留值,非常直观易懂。


二、数据趋势

数据趋势可以查看各个时间节点数据量变化,对于急速出现的波峰波谷有据可查。同时自定义的公式配置也同样可以展示数量变化的一个走势图,这样能更加方便用户查询问题。



系统架构

一、环路监控系统架构 V1.1.0

被监控的业务系统通过接入数据采集中间件,进行收揽业务数据,系统按照定义的业务链路进行存储,同时为了保证数据不会错位记录,每一个业务节点都采用主辅串联结构方式进行存储。


二、扩展架构

为了能让系统更加安全可靠且扩展性强,我们还独立开发了工具型中间件:


1、缓存多读多写中间件,融合 JimDB、R2M,可通过实现 RwxExtAuto 类进行更多控制,包括:配置主读、同步写、异步写、写关闭、读开启、读关闭(用于刷新缓存)、配置监控等。



2、RPC 路由,可以进行 JSF 接口路由,将数据库路由前置,减少数据库连接数,支持横向扩展。


  • 应用场景一:拆分数据库连接数


目前我们所有分库分表的应用,每一台数据库都被所有机器实例链接,每一个被路由的用户每次都可能被不同的实例链路引入到所属该用户的指定库表上。但在 618 和双 11 大促在进行机器扩容时,每一台数据库都将要被更多的机器实例进行链接,在达到系统瓶颈后很难再进行扩展。


环路监控开始接入约 5 个月时间,累计进入数据量约有 20+亿数据,为了能保证后续接入更多的业务流程而不影响系统性能,我们在 RPC 端进行路由,将数据库路由前置,减少数据库连接数,提升系统性能。下图为拆分前后的对照图:



  • 应用场景二,拆分内存横纵扩展


在业务系统中,有很多应用到系统内存的地方,例如环路监控、营销活动、营销文案等,在系统启动时需将信息加载到内存,通过调用内存数据提升系统性能。但单台机器可加内存有限,当达到一定数据容量后会出现性能下降情况。这时就可使用 RPC 路由,将内存进行分组,把数据按照一定的路由方式存放到不同的分组模块内,大大降低单台机器的内存占用。


由原来的 N 台机器,每个机器都存放 200M(假设)拆分为 Y 组机器,每组里有 M 台机器,每组机器拆分内存为 200M/Y,减轻单台机器内存压力,提高内存可用率。下图为拆分前后的对照图:


后续规划

接下来我们团队会持续提升系统易用性,让使用者更加方便的查询问题;并将数据逐步接入量化部门,最终找到用户为什么滞留到此?如何去引导解决问题等优化。


后续还将努力把系统共享出来,推广给需要的人。期待环路监控能成为使用者手中的利器,达到将风险控制在客诉之前,将资损控制在最低的目标,为客户提供更好的体验。欢迎感兴趣的京东同事一起沟通,可联系邮箱:ringroad@jd.com ,或直接咚咚付政委、乔瑞刚


2020-03-22 20:492220

评论

发布
暂无评论
发现更多内容

基于YOLOv8的水体环境监控项目(精准识别水域废弃物与污染物)|完整源码数据集+PyQt5界面+完整训练流程+开箱即用!

申公豹

yolov8

跨相机深度估计知识迁移技术解析

qife122

计算机视觉 域适应

CyberTalents蓝队奖学金CTF题解:从数字取证到网络安全的实战技巧

qife122

CTF 网络取证

开源的基于RTOnBoot多核异构框架打造的低成本高性能Linux主控加Ethercat主站解决方案,同步周期可稳定达到125微秒

winfredy

机器人 工业软件

SelectDB 在 AWS Graviton ARM 架构下相比 x86 实现 36% 性价比提升

SelectDB

数据分析 AWS arm 数据库查询 SelectDB

AI+办公:数字化转型的核动力引擎

中烟创新

为何说「新数据源」是推动 AI 发展的核心动力?

Baihai IDP

人工智能 程序员 AI 数据源 LLM

联邦学习中的动态提示调优技术FedDPG

qife122

联邦学习 动态提示

黑龙江等保测评周期调整:灵活性与风险控制的平衡

等保测评

大语言模型幻觉检测新工具与数据集

qife122

大语言模型 知识三元组

等保测评安全技术2025年趋势:AI与零信任的深度应用

等保测评

怎么制作鸿蒙App界面?UI设计工程化实践分享!

职场工具箱

鸿蒙 效率工具 产品设计 HarmonyOS ui设计

BeeWorks内网聊天工具,安全即时通讯

BeeWorks

即时通讯 IM 私有化部署

MainWP "Cost Tracker"笔记字段反射型XSS漏洞分析

qife122

网络安全 XSS

基于物理约束与强化驱动的可解释GRU商品需求预测模型

qife122

机器学习 物理信息神经网络

项目评审管理系统(源码+文档+讲解+演示)

深圳亥时科技

Java编译器优化秘籍:字节码背后的IR魔法与常见技巧

poemyang

Java虚拟机 IR 即时编译器 JIT编译器 #java

1行Python代码,实现PDF的加密、解密

程序员晚枫

Python 开源 PDF

混合递归架构实现推理速度翻倍的技术解析

qife122

推理优化 Transformer架构

等保测评与网络安全:从合规到能力建设的协同路径

等保测评

PWA与小程序技术突围重构全球化应用生态

xuyinyin

《零代码也能抓数据:用Web Scraper API快速搭建数据采集流程》

陈老老老板

Apache Doris 3.0.6 版本发布

SelectDB

Doris 数据导入 LakeHouse 物化视图 数据库 大数据

韩国用户遭250余款恶意移动应用窃密勒索

qife122

移动安全 网络犯罪

星巴克新加坡站6000美元账户接管漏洞:IDOR漏洞详解

qife122

漏洞挖掘 账户接管

开源版 Coze 和 Dify 的深度技术与架构对比

一支烟花AI

人工智能 智能体 agent dify coze

浏览器插件过度分享隐私问题剖析

qife122

浏览器安全 Wappalyzer

大数据-61 Kafka 主题、分区与消费者机制详解:从基础概念到重平衡优化

武子康

Java 大数据 kafka 分布式 消息队列

淘宝商品评论API响应数据解析

tbapi

淘宝商品评论接口 天猫商品评论接口 淘宝评论API 淘宝评论数据采集

局域网即时聊天软件,支持OEM的IM软件

BeeWorks

即时通讯 IM 私有化部署

基于JWT的多租户RAG技术实现解析

qife122

OpenSearch 多租户架构

全流程监控治理平台_文化 & 方法_京东数字科技产业AI中心_InfoQ精选文章