蚂蚁智能运维:单指标异常检测算法初探

2020 年 9 月 16 日

蚂蚁智能运维:单指标异常检测算法初探

1 背景介绍

AntMonitor:蚂蚁集团研发的一款面向云原生时代的全功能智能运维产品,包含业务监控、应用监控、基础设施监控、云原生可观测、一站式多维分析等功能。其中,智能化的单指标异常检测是该产品最基础、最重要的组成部分。

针对时序异常检测,目前蚂蚁集团内部基本都在按照以下几个思路进行研发:

  1. 通过时序预测的方法,典型算法为 ARIMA、LSTM 等,将历史数据训练的模型预测当前时刻的幅值,通过与真实值的差异来判断此刻的异常程度。在多次尝试此类模型后发现,其不但算法复杂度较高,还存有隐藏风险,此类模型训练遵循的是全局最优化策略,因此在预测当前值时无法保证当前值是单点最优 (运气不好的情况下,当前点预测值误差较大)。一种解决的思路是结合其他算法进行集成学习,将误差概率尽可能的降低;
  2. 采用深度学习的方法,通过大量采集正负样本,采用一维 CNN、甚至二维 CNN (将时序数据视为图像) 的方法训练模型。在尝试该类方法后发现,虽然其能够解决一些无法用规则描述的异常场景,但要搭建一个合适的针对时序数据的网络模型难度较大,此外在当前异常标准没有完全统一的情况下,模型移植性存在着很大的问题,当不同的 SRE 对业务容忍阈值不一致时,意味着要针对性地重新训练模型,这个工作量是十分巨大的;
  3. 通过集成学习的方法,有项目组是将多个弱分类赋予权重后投票来解决异常识别问题,当前的效果是在部分场景中可以达到很高的准招率。但与传统 Ensemble Learning 不同的是,其各个弱分类器的权重调整并不是一个自优化过程,而是需要通过人工调整获得,这在检测指标数量不大的时候可以采用,但是针对 AntMonitor 动辄几十万个目标指标的场景就无解了;
  4. 通过统计规则与机器学习相结合的方法,需要尽可能地将异常场景进行分类剥离(或者对数据进行分类,即算法路由),再针对各个场景进行求解。其中机器学习或深度学习可以用于描述一些难于公式化的场景,如描述波形相似。此类方法还可以将模型内部的各个参数进行透传,可以兼顾计算效率和模型移植性;

原文链接:【 https://www.infoq.cn/article/V3g7g8qC2oXpsms2pHCq 】。未经作者许可,禁止转载。

登录后可解锁全站优质内容

免费畅享技术公开课、顶尖技术团队访谈、一线互联网大厂技术实践

文章
视频
电子书
研究报告
立即登录
2020 年 9 月 16 日 14:05 1223

评论

发布
暂无评论
发现更多内容

架构师是怎样炼成的 04-1互联网分布式系统架构演化

闷骚程序员

极客大学架构师训练营

计算机操作系统基础(七)---作业管理之死锁

书旅

php laravel 线程 操作系统 进程

理解了 1+2 的过程,你就理解了Java虚拟机

侯树成

JVM JVM原理

Elasticsearch从入门到放弃:分词器初印象

Jackey

elasticsearch

Week4-Homework

架构师训练营 Week04 学习心得

极客大学架构师训练营

系统架构的一些思考

jason

架构师训练营:第四周作业

zcj

极客大学架构师训练营

消息队列(四)如何处理消息丢失的问题?

奈何花开

Java MQ 消息队列

极客时间架构师训练营 - week4 - 作业 1

jjn0703

极客大学架构师训练营

漫画:对象是如何被找到的?句柄 OR 直接指针?

王磊

Java Java 面试

架构师训练营 第4周学习总结

Glowry

极客大学架构师训练营

漫画:15张图,帮你看懂布隆算法

Java小咖秀

算法 面试题 布隆过滤器

Golang中的Interface(接口),全面解析

Eriol

golang 接口 interface

架构师训练营第四周总结

suke

极客大学架构师训练营

一张PDF了解JDK9 GC调优秘籍-附PDF下载

程序那些事

性能调优 GC JDK9 cheatsheet 秘籍

使用 Python 制作酷炫多彩的 Jenkins 插件词云图

donghui2020

jenkins wordcloud

聊聊Hystrix中的命令模式

老胡爱分享

Java 设计模式 Java 面试 命令模式

极客大学算法训练营第一课

落曦

【架构师训练营 - 周总结 -4】互联网系统架构演进

小动物

总结 极客大学架构师训练营 第四周

ARTS - Week Six

shepherd

JavaScript algorithm

架构师训练营第四周作业

W_T

「架构师训练营」第 4 周 学习总结

guoguo 👻

极客大学架构师训练营

Python多重继承问题之MRO和C3算法

王坤祥

Python MRO C3算法 多继承

架构师训练营总结-20200627

caibird1984

极客大学架构师训练营

架构师训练营第四周作业

Melo

【6月】本月读书学到了什么

Neco.W

读书感悟 阅读量

企业级业务架构设计读书总结

hiqian

架构师训练营 第4周作业

Glowry

极客大学架构师训练营

架构师训练营作业-20200627

caibird1984

极客大学架构师训练营

戴尔Latitude 9510 雅典娜计划标准的英特尔移动超能版笔记本

飞天鱼2017

蚂蚁智能运维:单指标异常检测算法初探-InfoQ