写点什么

自动找出复杂故障根本原因,阿里 AI 获智能运维国际竞赛冠军

  • 2022-03-25
  • 本文字数:1044 字

    阅读完需:约 3 分钟

自动找出复杂故障根本原因,阿里AI获智能运维国际竞赛冠军

家里 WIFI 如果发生故障,检查下路由器基本就能发现原因。但对于拥有复杂架构的云计算平台来说,要找出故障原因极为复杂和耗时。阿里打造出根因分析通用框架,利用 AI 快速定位故障根因,已应用于部分云计算产品,节省时间超过一半,准确率超过 80%。该框架也在近期举办的 ICASSP’22 AIOps Challenge 网络智能运维国际竞赛中获得冠军。

 

ICASSP(International Conference on Acoustics, Speech and Signal Processing)是信号处理领域规模最大的国际学术会议。其中,ICASSP’22 AIOps Challenge 网络智能运维竞赛由香港中文大学(深圳)等机构主办,希望用机器学习等方式来自动找出网络故障的根本原因,此次共有 382 支队伍参赛。由阿里达摩院决策智能实验室和阿里云计算平台组成的团队获得冠军,并受主办方之邀将其中主要算法以论文的形式发表在 ICASSP 上。

 

阿里团队 MindOps 获得竞赛冠军

 

所谓根因分析(Root Cause Analysis),是指找到故障的根本原因,这是智能运维 AIOps 的重要研究方向。以云计算平台为例,其稳定性至关重要,但由于架构复杂,模块众多,一旦出现故障,如果纯靠人工来排查费时费力,已难以满足需求。因此,基于机器学习等智能方式的根因分析应运而生。

 

不过,根因分析的技术门槛颇高,挑战重重。首先是运维数据往往来源于不同系统,形式多样,需要大海捞针找出关键信息。其次是容易被表象迷惑,大型系统中,故障传播的链路往往很长,根本原因可能隐藏在深层次节点中。此外还存在标注样本数据少,异常少见等问题。

 

阿里打造的根因分析通用框架,解决了上述难题。针对多源异构的海量数据,以时序分析技术来提取关键信息;针对标注样本少,利用时间序列相似性等多种方法来进行数据增强;针对故障传播链路长,运用结合了专家经验和因果图的图算法来找出根本原因。

 

该框架构建了丰富的算法工具箱和兵器库,已应用于阿里云实时计算、通用计算等多个重要产品中,如 Blink/Flink、MaxCompute、Dataworks 等,帮助运维人员及时发现异常,快速定位问题根因,准确率达 80%以上,相较之前能节省时间一半以上。比如实时计算平台的热点机器问题,会导致负载过高、作业缓慢,其原因链条较长,可能出自硬件故障,也可能是作业本身,人工排查较为耗时,而使用该框架能够快速定位根因。此外,它还能帮助发现较为隐蔽的异常,比如部分机器下线会导致资源不足,迫使一些客户等待排队,这些在常规集群整体作业中难以发现。


根因分析工具箱

 

此外,基于该框架的一篇论文之前还被国际顶会 CIKM2021 收录,研究人员受邀作 30 分钟的在线演讲(Oral Presentation)。

2022-03-25 12:016962

评论 2 条评论

发布
用户头像
👍,能分享一下CIKM2021的论文链接吗
2022-03-26 09:57
回复
没有更多了
发现更多内容

揭开《钢铁侠》AI管家贾维斯神秘面纱的扛鼎之作!

博文视点Broadview

处理XML数据应用实践

华为云开发者联盟

xml 数据库 数据 XML文档 GaussDB(DWS)

批量下载,我有妙解~

Viktor

JavaScript iframe 跨域

Centos7配置librdkafka运行时

happlyfox

Centos 7 28天写作 2月春节不断更

华为云“网红”语言Python课程来啦!

华为云开发者联盟

Python

开工来面试了几十个人,一言难尽

yes

面试

第一篇文章

棉花糖

产品0期 - 第五周作业

曾烧麦

产品训练营

云原生2.0时代:企业更应了解一下容器安全

华为云开发者联盟

容器 云原生 安全 漏洞

Oracle sqlldr快速导入和sqluldr2快速导出

阳光下、慵懒的熊

数据库

工作日志2-23

技术骨干

厘清 I/O 模型

sakila

网络编程 I/O

程序员成长第十二篇:做好项目计划

石云升

项目管理 程序员 28天写作 2月春节不断更

新思科技静态应用安全测试帮助Cryptsoft公司提高软件安全和质量水平

InfoQ_434670063458

技术干货 | 趣谈哈希表优化:从规避 Hash 冲突到利⽤ Hash 冲突

百度开发者中心

算法 数据结构和算法

腾讯位置服务开发应用

我是哪吒

28天写作 2月春节不断更 腾讯地图 腾讯位置服务开发应用 腾讯位置

揭秘京东城市时空数据引擎—JUST如何助力交通流量预测

京东科技开发者

JUST 流量预测

【LeetCode】转置矩阵Java题解

Albert

算法 LeetCode 28天写作 2月春节不断更

使用Kong作为微服务网关

行者AI

kong

技术干货 | 中间件技术在百度云原生测试中的应用实践

百度开发者中心

底层技术 #技术干货#

Linux 入门篇 —— 重定向与管道符

若尘

Linux 管道符 linux开发

基于matlab的控制系统与仿真4-判断系统稳定性

AXYZdong

matlab 2月春节不断更

可能是Java Stream的最佳实践(二)

ES_her0

28天写作

话题讨论 | 在中国程序员工作是青春饭吗?

happlyfox

话题讨论 2月春节不断更 话题王者

LeetCode题解:718. 最长重复子数组,动态规划,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

魔改出一个 Encoder | Rust 学习笔记(一)

李大狗

区块链 rust 入门

Kafka.07 - 性能优化介绍

insight

kafka 2月春节不断更

谁手握账本?趣讲 ZK 的内存模型

HelloGitHub

Java zookeeper ZooKeeper原理

教你如何在Python中读,写和解析CSV文

华为云开发者联盟

Python csv

【文末彩蛋】数据仓库服务 GaussDB(DWS)单点性能案例集锦

华为云开发者联盟

sql 数据仓库 数据

高手来啦!十八般武艺保护你的Web应用

云计算

自动找出复杂故障根本原因,阿里AI获智能运维国际竞赛冠军_架构_阿里巴巴达摩院_InfoQ精选文章