高效智能故障处理中的系统工程

阅读数:74 2019 年 9 月 21 日 15:20

高效智能故障处理中的系统工程

CNUTCon 上海 2018 大会上,王亚雷讲师做了《高效智能故障处理中的系统工程》主题演讲,主要内容如下。

演讲简介

复杂 IT 系统中故障的高效发现和排除问题的解决是一个复杂的系统工程,不能仅仅依赖一个单一的功能或算法。我们在实践中总结出一套帮助 AIOps 能够在企业中落地的算法、功能和支撑平台。报警压缩能够帮助我们在众多的重复和无效报警中减少报警数量,发现重复报警中的最重要的报警条,这个类似使用根因分析发现众多指标中造成突变的根源指标。报警压缩存在一个重要的检验因素:即不能错误压缩而造成漏报,我们在实践中作出了很多努力防止这种情况。异常的自动发现帮助我们从固定阈值报警中解放出来,异常算法需要根据强周期和弱周期分开计算。在高效发现问题的基础上,通过指标的关联分析和日志、事件的关联,帮助操作人员定位故障,使用知识库推荐故障的根源和解决方案。

主要内容:

  1. 报警的类型、报警压缩的困难和目标;
  2. 压缩算法和实践;
  3. 异常发现;
  4. RCA 和知识库方案推荐。

听众受益:

  1. 如何做好落地的 AIOps 在故障分析中的实践,算法和平台工程;
  2. 探讨把算法落地的路径。

讲师介绍

王亚雷

云兴维智 CEO

清华本科,美国德州大学奥斯汀分校硕士。十多年从事互联网服务平台,分布式 计算和数据存储的开发和管理工作。先后任职微软总部、eBay 和 Twitter 总部, 拥有超过二十年的企业运维管理和研发工作经验。

2016 年回国创立云兴维智 (北京) 科技有限公司,并担任 CEO。公司提供面向企业云平台和在线应用的运维大数据平台服务,致力于多维度运维数据的收集、 整合、呈现、报警和智能分析,打通现有的运维数据孤岛, 运用人工智能解决企业运维运营的困境,帮助企业进行高效和精准的运维。

高效智能故障处理中的系统工程

高效智能故障处理中的系统工程

高效智能故障处理中的系统工程

高效智能故障处理中的系统工程

高效智能故障处理中的系统工程

高效智能故障处理中的系统工程

高效智能故障处理中的系统工程

高效智能故障处理中的系统工程

高效智能故障处理中的系统工程

高效智能故障处理中的系统工程

完整演讲 PPT 下载链接

https://cnutcon.infoq.cn/2018/shanghai/#schedule

评论

发布