监控报警是故障发现的重要一环,也是百度在 AIOps 方向的第一个切入方向,目前百度 AIOps 在监控报警方面已经孵化出两个应用场景:智能异常检测和智能报警合并。
如何支撑 AIOps 算法在监控告警系统的快速落地并产生业务价值,这对监控告警架构提出了很大的挑战!本次分享将重点介绍百度监控告警系统在落地 AIOps 过程中遇到的架构挑战以及相应的解决方案。百度监控告警系统主要由异常检测、事件管理、通告发送三个子系统组成:
1、在异常检测部分,我们将介绍如何支撑 AIOps 算法的离线实验、近线测试、在线运行需求,以及处理多维度异常判断过程中遇到的难点和解决思路
2、在事件管理部分,我们将介绍基于状态机的事件管理模型如何能够防止线上故障被遗漏
3、在通告发送部分,我们将介绍如何利用智能报警合并算法来应对报警风暴,以及如何保障通告消息的零丢失
最后,将总结监控报警系统在落地 AIOps 算法过程中的实践经验,以及我们对 AIOps 的思考。
内容大纲:
1、落地 AIOps 对报警架构的挑战
2、报警系统的业务模型
3、异常判断子系统
- 智能异常检测的研发流程
- 多维度异常判断模型
- 离线开发框架和近 / 在线运行平台
4、事件管理子系统
- 报警事件模型
- 基于状态机引擎的报警升级机制
5、通告发送子系统
- 报警智能合并
- 报警流控方案
6、AIOps 落地实战经验
听众受益:
1、了解监控报警的业务痛点和对自身架构的挑战
2、了解 AIOps 落地过程中的思考和和工程实践经验
评论