写点什么

自动找出复杂故障根本原因,阿里 AI 获智能运维国际竞赛冠军

  • 2022-03-25
  • 本文字数:1044 字

    阅读完需:约 3 分钟

自动找出复杂故障根本原因,阿里AI获智能运维国际竞赛冠军

家里 WIFI 如果发生故障,检查下路由器基本就能发现原因。但对于拥有复杂架构的云计算平台来说,要找出故障原因极为复杂和耗时。阿里打造出根因分析通用框架,利用 AI 快速定位故障根因,已应用于部分云计算产品,节省时间超过一半,准确率超过 80%。该框架也在近期举办的 ICASSP’22 AIOps Challenge 网络智能运维国际竞赛中获得冠军。

 

ICASSP(International Conference on Acoustics, Speech and Signal Processing)是信号处理领域规模最大的国际学术会议。其中,ICASSP’22 AIOps Challenge 网络智能运维竞赛由香港中文大学(深圳)等机构主办,希望用机器学习等方式来自动找出网络故障的根本原因,此次共有 382 支队伍参赛。由阿里达摩院决策智能实验室和阿里云计算平台组成的团队获得冠军,并受主办方之邀将其中主要算法以论文的形式发表在 ICASSP 上。

 

阿里团队 MindOps 获得竞赛冠军

 

所谓根因分析(Root Cause Analysis),是指找到故障的根本原因,这是智能运维 AIOps 的重要研究方向。以云计算平台为例,其稳定性至关重要,但由于架构复杂,模块众多,一旦出现故障,如果纯靠人工来排查费时费力,已难以满足需求。因此,基于机器学习等智能方式的根因分析应运而生。

 

不过,根因分析的技术门槛颇高,挑战重重。首先是运维数据往往来源于不同系统,形式多样,需要大海捞针找出关键信息。其次是容易被表象迷惑,大型系统中,故障传播的链路往往很长,根本原因可能隐藏在深层次节点中。此外还存在标注样本数据少,异常少见等问题。

 

阿里打造的根因分析通用框架,解决了上述难题。针对多源异构的海量数据,以时序分析技术来提取关键信息;针对标注样本少,利用时间序列相似性等多种方法来进行数据增强;针对故障传播链路长,运用结合了专家经验和因果图的图算法来找出根本原因。

 

该框架构建了丰富的算法工具箱和兵器库,已应用于阿里云实时计算、通用计算等多个重要产品中,如 Blink/Flink、MaxCompute、Dataworks 等,帮助运维人员及时发现异常,快速定位问题根因,准确率达 80%以上,相较之前能节省时间一半以上。比如实时计算平台的热点机器问题,会导致负载过高、作业缓慢,其原因链条较长,可能出自硬件故障,也可能是作业本身,人工排查较为耗时,而使用该框架能够快速定位根因。此外,它还能帮助发现较为隐蔽的异常,比如部分机器下线会导致资源不足,迫使一些客户等待排队,这些在常规集群整体作业中难以发现。


根因分析工具箱

 

此外,基于该框架的一篇论文之前还被国际顶会 CIKM2021 收录,研究人员受邀作 30 分钟的在线演讲(Oral Presentation)。

2022-03-25 12:016073

评论 2 条评论

发布
用户头像
👍,能分享一下CIKM2021的论文链接吗
2022-03-26 09:57
回复
没有更多了
发现更多内容

没错!在 Excel 中也能对海量数据进行明细钻取啦

Kyligence

数据分析 海量数据

技术内幕 | StarRocks Pipeline 执行框架(下)

StarRocks

数据库

立即升级 NGINX 以应对漏洞风险

NGINX开源社区

nginx 安全 漏洞

提高工作效率的神器:基于前端表格实现Chrome Excel扩展插件

葡萄城技术团队

chrome Excel 插件 扩展

校招面试真题 | 面试官必问面试题之你有什么想问我的?

霍格沃兹测试开发学社

网络安全实战之靶场渗透技术

网络安全学海

黑客 网络安全 信息安全 渗透测试 漏洞挖掘

HTTP - HTTP/2 知识点

懒时小窝

HTTP http2

【案例】星环科技×某能源企业:数据中台实践

星环科技

语法结构

魏铁锤

10月月更

Java 编程之标记语句

魏铁锤

10月月更

2022年9月中国网约车领域月度观察

易观分析

网约车

KubeCube 版本转换:K8s 升级再也不用担心影响老版本了

网易数帆

开源 Kubernetes 云原生 KubeCube 企业号十月 PK 榜

新来个技术总监,给团队引入了这款开发神器,同事直呼哇塞

Liam

前后端分离 开发 Postman API 开发效率

GPU在高性能仿真计算中的应用

Finovy Cloud

高性能 GPU算力

6 种 K8s 协同工具,助你提高工作效率

Daocloud 道客

Kubernetes 云原生 kubectl 命令行工具

一站式移动工作平台,让企业实现运营管理全面数字化

WorkPlus

【kafka原理】Kafka生产者 (分区策略和ACK应答机制)

石臻臻的杂货铺

kafka Kafka实战 10月月更

运算符号

魏铁锤

10月月更

结果公布!1024开发者狂欢季踏浪而来,参与赛道主题征文赢取精美奖品!

InfoQ写作社区官方

OpenHarmony 元宇宙 Web3.0 热门活动 “程”风破浪的开发者

锋云智慧开启“1024猿媛囤书日”活动,千锋原创教材普惠广大技术学习者

千锋IT教育

直击面试!Github爆火2022最新Java面试八股文+简历模板+面试软技能分享

程序员小毕

程序员 程序人生 后端 java面试 简历

React + Springboot + Quartz,从0实现Excel报表自动化

葡萄城技术团队

React SpringB

HCI 解决方案对比:Harvester 和 OpenStack

Rancher

Kubernetes k8s rancher

阿里平头哥RISC-V补丁并入安卓系统源代码,RISC-V与安卓融合再提速

Lily

澜舟科技机器翻译新进展:汉语与世界15 种主要语言的翻译超越谷歌

澜舟孟子开源社区

人工智能 机器翻译 nlp 澜舟科技

图解Kafka中的数据采集和统计机制

石臻臻的杂货铺

kafka Kafka实战 10月月更

TiDB5.0.0-rc性能测试

TiDB 社区干货传送门

版本测评 新版本/特性发布

万物皆可集成系列:低代码通过Web API

葡萄城技术团队

集成 数据录入

一篇带你了解如何使用纯前端类Excel表格构建现金流量表

葡萄城技术团队

管理 流量

WorkPlus数智化移动平台,打造政企强安全的超级门户

WorkPlus

iphone14到手了?你还需要一个专职管家!

淋雨

iphone 备份

自动找出复杂故障根本原因,阿里AI获智能运维国际竞赛冠军_架构_阿里巴巴达摩院_InfoQ精选文章