2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

自动找出复杂故障根本原因,阿里 AI 获智能运维国际竞赛冠军

  • 2022-03-25
  • 本文字数:1044 字

    阅读完需:约 3 分钟

自动找出复杂故障根本原因,阿里AI获智能运维国际竞赛冠军

家里 WIFI 如果发生故障,检查下路由器基本就能发现原因。但对于拥有复杂架构的云计算平台来说,要找出故障原因极为复杂和耗时。阿里打造出根因分析通用框架,利用 AI 快速定位故障根因,已应用于部分云计算产品,节省时间超过一半,准确率超过 80%。该框架也在近期举办的 ICASSP’22 AIOps Challenge 网络智能运维国际竞赛中获得冠军。

 

ICASSP(International Conference on Acoustics, Speech and Signal Processing)是信号处理领域规模最大的国际学术会议。其中,ICASSP’22 AIOps Challenge 网络智能运维竞赛由香港中文大学(深圳)等机构主办,希望用机器学习等方式来自动找出网络故障的根本原因,此次共有 382 支队伍参赛。由阿里达摩院决策智能实验室和阿里云计算平台组成的团队获得冠军,并受主办方之邀将其中主要算法以论文的形式发表在 ICASSP 上。

 

阿里团队 MindOps 获得竞赛冠军

 

所谓根因分析(Root Cause Analysis),是指找到故障的根本原因,这是智能运维 AIOps 的重要研究方向。以云计算平台为例,其稳定性至关重要,但由于架构复杂,模块众多,一旦出现故障,如果纯靠人工来排查费时费力,已难以满足需求。因此,基于机器学习等智能方式的根因分析应运而生。

 

不过,根因分析的技术门槛颇高,挑战重重。首先是运维数据往往来源于不同系统,形式多样,需要大海捞针找出关键信息。其次是容易被表象迷惑,大型系统中,故障传播的链路往往很长,根本原因可能隐藏在深层次节点中。此外还存在标注样本数据少,异常少见等问题。

 

阿里打造的根因分析通用框架,解决了上述难题。针对多源异构的海量数据,以时序分析技术来提取关键信息;针对标注样本少,利用时间序列相似性等多种方法来进行数据增强;针对故障传播链路长,运用结合了专家经验和因果图的图算法来找出根本原因。

 

该框架构建了丰富的算法工具箱和兵器库,已应用于阿里云实时计算、通用计算等多个重要产品中,如 Blink/Flink、MaxCompute、Dataworks 等,帮助运维人员及时发现异常,快速定位问题根因,准确率达 80%以上,相较之前能节省时间一半以上。比如实时计算平台的热点机器问题,会导致负载过高、作业缓慢,其原因链条较长,可能出自硬件故障,也可能是作业本身,人工排查较为耗时,而使用该框架能够快速定位根因。此外,它还能帮助发现较为隐蔽的异常,比如部分机器下线会导致资源不足,迫使一些客户等待排队,这些在常规集群整体作业中难以发现。


根因分析工具箱

 

此外,基于该框架的一篇论文之前还被国际顶会 CIKM2021 收录,研究人员受邀作 30 分钟的在线演讲(Oral Presentation)。

2022-03-25 12:016619

评论 2 条评论

发布
用户头像
👍,能分享一下CIKM2021的论文链接吗
2022-03-26 09:57
回复
没有更多了
发现更多内容

海外APP推送(下篇):海外厂商通道集成指南

极光GPTBots-极光推送

sdk 厂商通道

武林头条-建站小能手争霸赛

hum建应用专家

数据库 wordpass

微服务化解决文库下载业务问题实践

百度Geek说

Java 微服务

Python图像处理丨两种实现图像形态学转化运算

华为云开发者联盟

Python 人工智能 图像处理 图像

iOS单元测试的那些事儿

珲少

Python 高阶

Damon

7月月更

Python爬虫,JS逆向之 webpack 打包站点原理与实战

梦想橡皮擦

Python 爬虫 7月月更

向日葵远程控制为何采用BGP服务器?自动最优路线、跨运营商高速传输

贝锐

远程控制 向日葵

面试京东T5,被按在地上摩擦,鬼知道我经历了什么?

程序员啊叶

Java 编程 程序员 架构 java面试

深度学习3D人体姿态估计国内外研究现状及痛点

阿炜小菜鸡

深度学习 人体姿态估计

7月27日19:30直播预告:HarmonyOS3及华为全场景新品发布会

HarmonyOS开发者

HarmonyOS

web前端开发培训课程如何学习

小谷哥

公司刚来的阿里p8,看完我构建的springboot框架,甩给我一份文档

程序员啊叶

Java 编程 程序员 架构 java面试

行业案例|指标中台如何助力银行业普惠金融可持续发展

Kyligence

大数据 普惠金融 指标中台

Flink 在 讯飞 AI 营销业务的实时数据分析实践

Apache Flink

大数据 flink 编程 流计算 实时计算

程序员培训学习后好找工作吗?

小谷哥

开放原子开源基金会OpenHarmony工作委员会主席侯培新寄语OpenAtom OpenHarmony分论坛

OpenHarmony开发者

OpenHarmony

敲黑板画重点:七种常见“分布式事务”详解

程序员啊叶

Java 编程 程序员 架构 java面试

尤雨溪向初学者推荐Vite 【为什么使用Vite】

flow

签约计划第三季

Redis为什么这么快?Redis的线程模型与Redis多线程

程序员啊叶

Java 编程 程序员 架构 Java 面试

向日葵资深产品总监技术分享:如何在AD域环境下应用

贝锐

安全 AD域 远程控制 向日葵

百问百答第48期:极客有约——可观测体系的建设路径

博睿数据

可观测性 智能运维 博睿数据 性能监测 极客有约

大数据培训机构有哪些值得推荐?

小谷哥

干货|语义网、Web3.0、Web3、元宇宙这些概念还傻傻分不清楚?(中)

Orillusion

开源 WebGL 元宇宙 Metaverse webgpu

基于 Flink CDC 实现海量数据的实时同步和转换

Apache Flink

大数据 flink 编程 流计算 实时计算

参加前端培训班学web前端技术靠谱吗

小谷哥

什么是RPC?RPC框架dubbo的核心流程

程序员啊叶

Java 编程 程序员 架构 java面试

大咖观点+500强案例,软件团队应该这样提升研发效能!

万事ONES

浅谈低代码技术在物流运输平台中的搭建与管理

王平

技术分享:国民远控向日葵如何通过BBR算法提升远控体验?

贝锐

技术分享 远程控制 TCP拥塞控制 向日葵 BBR

在北京选择前端培训班学习大数据

小谷哥

自动找出复杂故障根本原因,阿里AI获智能运维国际竞赛冠军_架构_阿里巴巴达摩院_InfoQ精选文章