写点什么

AI 驱动的智能异常处置:从异常发现到根因定位|QCon 北京

  • 2025-03-26
    北京
  • 本文字数:1460 字

    阅读完需:约 5 分钟

AI 驱动的智能异常处置:从异常发现到根因定位|QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。


异常处置包含异常发现、问题定界和根因定位等环节,一个高效的异常处置流程对于保障平台的稳定性起到至关重要的作用。然而平台本身的复杂度以及海量的多元异构数据给异常处置带来了巨大的挑战,大模型等 AI 技术的演进则为应对这些挑战提供了新的思路。本次演讲将从阿里云计算平台的运维场景出发,分享从异常发现到问题定界和根因定位各环节的算法选型和设计思路,包括通用的时间序列异常检测、高效的日志聚类和精准的多 Agent 根因定位框架。



张颖莹是阿里云计算平台智能运维算法团队负责人,在智能运维领域深耕 8 年。用产品和服务支撑计算平台 MaxCompute、Flink、Dataworks、PAI 等多个大数据 &AI 产品的智能化运维。多项研究成果被 ICLR,KDD,VLDB, SIGMOD, ICDE,WWW, CIKM,ICASSP 等国际顶会接收,并带领团队获得了 ICASSP 国际智能运维算法大赛冠军。曾受邀在 QCon,ArchSummit,DataFunCon,FlinkForward 等大会发表演讲,同时参与了阿里巴巴开源大数据运维平台 SREWorks 开发和信通院《智能运维能力成熟度模型》行业标准编写。本次会议中,她的详细演讲内容如下:


演讲提纲

1. 阿里云大数据运维背景

  • 阿里云大数据 & AI 平台介绍

  • 异常处置面临的核心挑战

2. 通用异常发现和定界

  • 通用时间序列异常检测

  • 基于下钻和日志聚类的问题定界

3. 多 Agent 根因定位框架

  • Agent 角色设定

  • 工具箱建设

  • 多 Agent 工作流编排

4. 通用异常处置平台构建

  • 大模型应用部署框架

  • 异常处置平台建设

  • 线上应用效果

5. 总结和展望


您认为,这样的技术在实践过程中有哪些痛点?

大模型多 Agent 框架中,用工具的方式整合了算法小模型和运维业务分析工具,这些工具本身的性能和精度,对于大模型最终的推断效果起到关键作用。同时多 Agent 框架本质上实现了复杂任务的拆解,相较于单 Agent 框架会进行更多次的推理,适用于较复杂的平台


演讲亮点

  • 异常发现部分的算法设计充分考虑了运维场景中关注典型异常类型,具备通用性和高性能。相关论文被顶会 SIGMOD/KDD 等接收。同时利用问题定界能力对异常发现结果进行过滤,可以实现有效的告警降噪

  • 根因定位部分采用的大模型多 Agent 框架,基于平台模块进行 Agent 角色的设定,可以模拟出现实世界中不同模块专家协同定位的场景, 同时在每个 Agent 内部整合了算法小模型和运维业务分析工具,增强了结果的可靠性


听众收益

  • 通过阿里云计算平台的实践经验和案例,听众可以了解在 AI 如何赋能运维场景中非常核心的异常处置流程

  • 本次分享介绍的算法框架,已经被国际顶会接收,具备技术前沿性,通过分享观众可以了解框架的技术细节

  • 通过未来展望,听众可以了解智能运维未来发展的趋势和需要攻破的难题


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀大二以上学生加入志愿者服务,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-03-26 19:186450

评论

发布
暂无评论
发现更多内容

网络攻防学习笔记 Day117

穿过生命散发芬芳

网络安全 8月日更

我的微信业务架构图

白开水又一杯

#架构实战营

我的学生管理系统

白开水又一杯

#架构实战营

架构实战训练营模块 1 作业

斯蒂芬.赵

架构实战营

游戏开发者的通关之旅,华为AGC for Games带来了什么?

脑极体

模块1作业

atob

作业

Doctor Blind

架构实战营

模块一作业

Geek_85eb5f

架构实战打怪升级day01

yphust

模块一作业:微信业务架构图与学生管理系统毕设架构设计

apple

百度地图开发-与地图的交互功能 06

Andy阿辉

android Android Studio Android 小菜鸟 8月日更

架构实战☞ 微信业务架构&学生管理系统架构设计

眼镜盒子

架构实战营

架构实战课程 模块一作业

Frank

0基础架构入门 - 1(架构概述)

felix

架构实战营 0基础架构入门

微信业务架构&毕设学生管理架构选择

Sky

架构实战营

微信业务架构图&学生管理系统设计思路

刘琦Logan

基于java springboot android 安卓报修系统源码(毕设)

清风

Java Android Studio 毕业设计

架构实战营-模块一作业

Alex.Wu

微服务的痛:用实际经历告诉你它有多坑(三)

我爱娃哈哈😍

微服务 架构设计

微信朋友圈高性能复杂度分析

刘琦Logan

微信业务架构图&毕业设计之学生管理系统(model1)

消失的子弹

微信 架构图

架构师训练营2期模块一作业

kazeMace

架构实战营

Coffee学架构:架构设计001(怎么做架构设计)

咖啡

架构设计实战

在线JSON转HTML,TABLE表格工具

入门小站

工具

架构实战营模块一作业

李焕之

Ubuntu Server 20.04 搭建安装Kubernetes

玏佾

Kubernetes k8s文档 k8s资源 #k8s

Linux之seq命令

入门小站

Linux

深入了解现代web浏览器(第二部分)

GKNick

大前端 浏览器

模块一作业

bin

【架构训练营】【模块一】【作业】【微信业务架构】【学生管理系统架构】

简直走不拐弯

极客时间 作业 架构训练营

如何在 MacOS 上降级 Java 版本

escray

学习 8月日更

AI 驱动的智能异常处置:从异常发现到根因定位|QCon北京_AI&大模型_QCon全球软件开发大会_InfoQ精选文章