【ArchSummit架构师峰会】探讨数据与人工智能相互驱动的关系>>> 了解详情
写点什么

自动找出复杂故障根本原因,阿里 AI 获智能运维国际竞赛冠军

  • 2022-03-25
  • 本文字数:1044 字

    阅读完需:约 3 分钟

自动找出复杂故障根本原因,阿里AI获智能运维国际竞赛冠军

家里 WIFI 如果发生故障,检查下路由器基本就能发现原因。但对于拥有复杂架构的云计算平台来说,要找出故障原因极为复杂和耗时。阿里打造出根因分析通用框架,利用 AI 快速定位故障根因,已应用于部分云计算产品,节省时间超过一半,准确率超过 80%。该框架也在近期举办的 ICASSP’22 AIOps Challenge 网络智能运维国际竞赛中获得冠军。

 

ICASSP(International Conference on Acoustics, Speech and Signal Processing)是信号处理领域规模最大的国际学术会议。其中,ICASSP’22 AIOps Challenge 网络智能运维竞赛由香港中文大学(深圳)等机构主办,希望用机器学习等方式来自动找出网络故障的根本原因,此次共有 382 支队伍参赛。由阿里达摩院决策智能实验室和阿里云计算平台组成的团队获得冠军,并受主办方之邀将其中主要算法以论文的形式发表在 ICASSP 上。

 

阿里团队 MindOps 获得竞赛冠军

 

所谓根因分析(Root Cause Analysis),是指找到故障的根本原因,这是智能运维 AIOps 的重要研究方向。以云计算平台为例,其稳定性至关重要,但由于架构复杂,模块众多,一旦出现故障,如果纯靠人工来排查费时费力,已难以满足需求。因此,基于机器学习等智能方式的根因分析应运而生。

 

不过,根因分析的技术门槛颇高,挑战重重。首先是运维数据往往来源于不同系统,形式多样,需要大海捞针找出关键信息。其次是容易被表象迷惑,大型系统中,故障传播的链路往往很长,根本原因可能隐藏在深层次节点中。此外还存在标注样本数据少,异常少见等问题。

 

阿里打造的根因分析通用框架,解决了上述难题。针对多源异构的海量数据,以时序分析技术来提取关键信息;针对标注样本少,利用时间序列相似性等多种方法来进行数据增强;针对故障传播链路长,运用结合了专家经验和因果图的图算法来找出根本原因。

 

该框架构建了丰富的算法工具箱和兵器库,已应用于阿里云实时计算、通用计算等多个重要产品中,如 Blink/Flink、MaxCompute、Dataworks 等,帮助运维人员及时发现异常,快速定位问题根因,准确率达 80%以上,相较之前能节省时间一半以上。比如实时计算平台的热点机器问题,会导致负载过高、作业缓慢,其原因链条较长,可能出自硬件故障,也可能是作业本身,人工排查较为耗时,而使用该框架能够快速定位根因。此外,它还能帮助发现较为隐蔽的异常,比如部分机器下线会导致资源不足,迫使一些客户等待排队,这些在常规集群整体作业中难以发现。


根因分析工具箱

 

此外,基于该框架的一篇论文之前还被国际顶会 CIKM2021 收录,研究人员受邀作 30 分钟的在线演讲(Oral Presentation)。

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2022-03-25 12:014927

评论 2 条评论

发布
用户头像
👍,能分享一下CIKM2021的论文链接吗
2022-03-26 09:57
回复
没有更多了
发现更多内容

一周信创舆情观察(1.25~1.31)

统小信uos

《iOS面试简历技巧解析》

ios 面试

【春节不远行,云上过大年】来华为云社区,接任务领新年红包啦···

华为云开发者联盟

华为云

PM必备自我管理工具整理

做人没有梦想和咸鱼有什么区别

项目管理 PM

架构师week10作业

Geek_xq

淘宝的商品中心和类目体系是怎么设计的

邴越

架构 阿里 模型 电商 业务

OpenYurt:延伸原生 Kubernetes 到边缘场景下的落地实践

阿里巴巴云原生

人工智能 容器 运维 云原生 k8s

原来这就是大厂的MySQL主从复制、读写分离及高可用方案!

MySQL 数据库 架构

基于SpringBoot的微服务架构与K8S容器部署实践

Java 架构 微服务

“新内容 新交互” 阿里云全球视频云创新挑战赛正式开启!

阿里云视频云

阿里云 音视频 应用

您的《操作系统线程模型总结》请查收。

后台技术汇

28天写作 2月春节不断更

一寸宕机一寸血,十万容器十万兵|Win10/Mac系统下基于Kubernetes(k8s)搭建Gunicorn+Flask高可用Web集群

刘悦的技术博客

flask k8s kubectl Docker Desktop gunicorn

2021全新iOS学习方向

ios 逆向

GrowingIO SaaS 产品 CI/CD 实践 (一)

GrowingIO技术专栏

ci SaaS CD

面试加分项!零基础如何成为高级Android开发,先收藏了

欢喜学安卓

android 程序员 面试 移动开发

面试加分项!我在美团Android研发岗工作的那5年,系列篇

欢喜学安卓

android 程序员 面试 移动开发

16张图带你吃透Redis架构演进

Kaito

redis 架构 高性能

开放下载!解锁 Serverless 从入门到实战大“橙”就

阿里巴巴云原生

云计算 Linux Serverless 开发者 云原生

LeetCode题解:529. 扫雷游戏,DFS,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

28天总结

张老蔫

28天写作

2021年 区块链最火的app爱打卡

v16629866266

以终为始:28天打卡输出复盘

熊斌

个人成长 写作平台 28天写作

🌏 超详细 DNS 协议解析

飞天小牛肉

Java 程序员 面试 计算机网络 2月春节不断更

架构师week10总结

Geek_xq

短信验证码被刷怎么办?java 短信验证码防刷策略分析

香芋味的猫丶

黑客 短信防刷 短信验证码 短信防轰炸 短信防火墙

互助系统软件开发,互助app开发

luluhulian

民进昆明市委:建议利用区块链技术优势在昆明打造金融应用平台

CECBC

金融 金融区块链

徒手撸一个Spring Boot中的starter

田维常

springboot

今年我读了四个开源项目的源码,来分享下心得

yes

源码 面试 后端

滴滴夜莺二次开发全搞定

滴滴云

开源 监控 滴滴夜莺 夜莺监控 运维平台

零基础实现Java直播(一):集成

ZEGO即构

自动找出复杂故障根本原因,阿里AI获智能运维国际竞赛冠军_架构_阿里巴巴达摩院_InfoQ精选文章