写点什么

百度 AIOps 黄金指标异常检测技术实践

  • 2019-08-29
  • 本文字数:653 字

    阅读完需:约 2 分钟

百度 AIOps 黄金指标异常检测技术实践

请求量、响应时间、错误数和容量是运维领域的四大黄金指标,针对黄金指标的异常检测技术是故障发现和故障诊断的基础。但一直以来,黄金指标异常检测技术都是一个复杂的问题。一方面,需要算法针对不同指标训练不同的模型,并且要能满足 Oncall 工程师对高准确召回率的要求,另一方面,历史数据集中的故障数据比例不高,数据标注成本较大,这就要求算法自己有能力识别并排除噪声数据,第三,故障发现、诊断、自愈等场景对于准确率和召回率的倾向不同,算法需要具备按场景调节的能力。 本次演讲,我们将介绍百度 AIOps 黄金指标异常检测技术。我们的算法已经覆盖了百度所有业务线的故障发现,并且也在故障诊断和自愈场景有了很多的实践。 百度资深软件研发工程师王博即将在 QCon 全球软件开发大会(上海站)2019分享《百度 AIOps 黄金指标异常检测技术实践


内容大纲

  1. 黄金指标监控背景

  2. 黄金指标监控体系


2.1 基于高斯核密度估计的延迟监控方法


2.2 基于 Beta 分布核密度估计的容量监控方法


2.3 基于二项分布的错误数监控方法


2.4 基于泊松分布的流量监控方法


  1. 应用效果

  2. 总结及展望


听众受益

  1. 运维黄金指标的传统监控方法及其缺陷;

  2. 基于概率统计的运维黄金指标监控方法。


嘉宾介绍


王博,2014 年 6 月于北京理工大学取得计算机硕士学位,加入百度后一直从事 AIOps 算法与架构方面的工作,致力于黄金指标异常检测体系、AIOps 前沿算法研究与落地、新一代报警系统等相关工作。本次演讲希望能给大家分享百度在黄金指标异常检测策略研究过程中的经验,与大家共同探讨提高。


更多智能运维的相关分享请访问 QCon 上海 2019 官网。


2019-08-29 12:167614

评论

发布
暂无评论
发现更多内容

GaussDB for DWS:内存自适应控制技术总结

华为云开发者联盟

大数据 数据湖 内存管理 sql 华为云

MySQL 高可用和分布式数据库(训练营第六课)

看山是山

zookeeper CAP 主从复制 主主复制 MySQL 高可用

一个成都程序猿写于离开北京一周年与26岁生日的这一天

why技术

生活 程序人生 北漂 成都

架构师训练营第六周总结

sunnywhy

CAP原理简介

elfkingw

Doris临时失效处理过程的UML时序图

周冬辉

架构师训练营第六周总结

王铭铭

「1.4万字」玩转前端 Video 播放器 | 多图预警

阿宝哥

大前端 流媒体 Video播放器 HLS

NOSQL - 第六周总结

孙志平

CAP 原理及Doris 临时失效的处理过程

Acker飏

极客大学架构师训练营 CAP

架构师训练营第六周作业

王铭铭

架构师训练营」第 6 周作业

edd

极客大学架构师训练营

「架构师训练营」第 6 周作业 - CAP

森林

蟒周刊-429-Python 3.8.4 可用ed

ZoomQuiet大妈

Python 大妈 蟒周刊

CAP原则

熊威

「架构师训练营」第 6 周作业 - 总结

森林

详解 Flink 实时应用的确定性

Apache Flink

flink

解析软件系统稳定性的三大秘密

华为云开发者联盟

开发者 软件开发 稳定性 系统 探索与实践

NOSQL - 第六周作业

孙志平

Doris 临时失效 UML 时序图(训练营第六周)

看山是山

Doris

学习总结 - 第 6 周

饶军

架构师训练营第六周命题作业

whiter

极客大学架构师训练营

static关键字真能提高Bean的优先级吗?答:真能

YourBatman

spring springboot SpringCloud 极客大学架构师训练营 Spring Bean

学会使用Vue JSX,一车老干妈都是你的

前端有的玩

Java Vue 大前端 技巧 React

架构师训练营第6周作业

饶军

总结

Kiroro

Kafka 是如何建模数据的?

tison

大数据 kafka

聊聊服务灾备

老胡爱分享

分布式架构 服务设计

架构师训练营第六周作业

sunnywhy

CAP

Kiroro

猿灯塔:spring Boot Starter开发及源码刨析(六)

猿灯塔

百度 AIOps 黄金指标异常检测技术实践_QCon_王博_InfoQ精选文章