2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

AI 驱动的智能异常处置:从异常发现到根因定位|QCon 北京

  • 2025-03-26
    北京
  • 本文字数:1460 字

    阅读完需:约 5 分钟

AI 驱动的智能异常处置:从异常发现到根因定位|QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。


异常处置包含异常发现、问题定界和根因定位等环节,一个高效的异常处置流程对于保障平台的稳定性起到至关重要的作用。然而平台本身的复杂度以及海量的多元异构数据给异常处置带来了巨大的挑战,大模型等 AI 技术的演进则为应对这些挑战提供了新的思路。本次演讲将从阿里云计算平台的运维场景出发,分享从异常发现到问题定界和根因定位各环节的算法选型和设计思路,包括通用的时间序列异常检测、高效的日志聚类和精准的多 Agent 根因定位框架。



张颖莹是阿里云计算平台智能运维算法团队负责人,在智能运维领域深耕 8 年。用产品和服务支撑计算平台 MaxCompute、Flink、Dataworks、PAI 等多个大数据 &AI 产品的智能化运维。多项研究成果被 ICLR,KDD,VLDB, SIGMOD, ICDE,WWW, CIKM,ICASSP 等国际顶会接收,并带领团队获得了 ICASSP 国际智能运维算法大赛冠军。曾受邀在 QCon,ArchSummit,DataFunCon,FlinkForward 等大会发表演讲,同时参与了阿里巴巴开源大数据运维平台 SREWorks 开发和信通院《智能运维能力成熟度模型》行业标准编写。本次会议中,她的详细演讲内容如下:


演讲提纲

1. 阿里云大数据运维背景

  • 阿里云大数据 & AI 平台介绍

  • 异常处置面临的核心挑战

2. 通用异常发现和定界

  • 通用时间序列异常检测

  • 基于下钻和日志聚类的问题定界

3. 多 Agent 根因定位框架

  • Agent 角色设定

  • 工具箱建设

  • 多 Agent 工作流编排

4. 通用异常处置平台构建

  • 大模型应用部署框架

  • 异常处置平台建设

  • 线上应用效果

5. 总结和展望


您认为,这样的技术在实践过程中有哪些痛点?

大模型多 Agent 框架中,用工具的方式整合了算法小模型和运维业务分析工具,这些工具本身的性能和精度,对于大模型最终的推断效果起到关键作用。同时多 Agent 框架本质上实现了复杂任务的拆解,相较于单 Agent 框架会进行更多次的推理,适用于较复杂的平台


演讲亮点

  • 异常发现部分的算法设计充分考虑了运维场景中关注典型异常类型,具备通用性和高性能。相关论文被顶会 SIGMOD/KDD 等接收。同时利用问题定界能力对异常发现结果进行过滤,可以实现有效的告警降噪

  • 根因定位部分采用的大模型多 Agent 框架,基于平台模块进行 Agent 角色的设定,可以模拟出现实世界中不同模块专家协同定位的场景, 同时在每个 Agent 内部整合了算法小模型和运维业务分析工具,增强了结果的可靠性


听众收益

  • 通过阿里云计算平台的实践经验和案例,听众可以了解在 AI 如何赋能运维场景中非常核心的异常处置流程

  • 本次分享介绍的算法框架,已经被国际顶会接收,具备技术前沿性,通过分享观众可以了解框架的技术细节

  • 通过未来展望,听众可以了解智能运维未来发展的趋势和需要攻破的难题


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀大二以上学生加入志愿者服务,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-03-26 19:187083

评论

发布
暂无评论
发现更多内容

Python OpenCV 图像缩放 cv2.resize 方法

梦想橡皮擦

3月日更

要求输出事故报告,线上日志文件却不见了!!

陈皮的JavaLib

Java 运维 日志框架

管理者如何应对员工离职

石云升

离职 28天写作 职场经验 管理经验 3月日更

Wireshark数据包分析学习笔记Day22

穿过生命散发芬芳

Wireshark 数据包分析 3月日更

JVM疑难情况分析

秋天

jvm调优

发展数字经济要因地制宜

CECBC

数字经济

9种常用便捷的Java异常处理方法,帮你脱身繁琐

北游学Java

Java 异常 异常检测 异常处理

架构师训练营第一课学习笔记

杰语

为什么很多工程师不了解Serverless

云原生

Serverless 云原生 Knative

常见Http响应码

风翱

3月日更 http响应码

坚持输出文字

lenka

3月日更

聊一聊 Vue 3 双向绑定是如何工作的

阿宝哥

Vue Vue 3

智慧公安一键扫描二维码报警定位系统

13828808769

智慧交通

另类数据:投资中的怪咖

博文视点Broadview

区块链产品宗谱链,一款记录族谱的APP

13828808769

区块链+ #区块链#

作为后端开发人员应该懂的TCP、HTTP、Socket、Socket连接池,一文详解丨Linux后端开发

Linux服务器开发

TCP 后端 socket HTTP Linux服务器开发

设计与思考,关于资源和生命周期(二)

程序员架构进阶

设计实践 生命周期 28天写作 3月日更 池化技术

聊聊LiteOS中生成的Bin、HEX、ELF三种文件格式

华为云开发者联盟

编译器 LiteOS Bin HEX ELF

风暴眼中的“以太坊”堪比堵车的北京东三环,NA公链(Nirvana)NAC公链对垒胜算几何?

区块链第一资讯

区块链

这个 29.7 K 的剪贴板 JS 库有点东西!

阿宝哥

JavaScript 开源 源码解析

JSP中Vue.js的使用受限

空城机

vue.js 大前端 jsp

Python基础之:Python中的IO

程序那些事

Python 人工智能 数据分析 程序那些事

Java后端开发面试题之MySQL上篇(含答案)

北游学Java

Java MySQL 面试

智能化软件开发微访谈·第十六期:低代码/无代码开发

吴盛

低代码 快速开发 sql 无代码开发

初识Golang之函数及方法的多返回值

Kylin

3月日更

数字化进入深水区

鲸品堂

方法论 数字化 企业数字化转型

Redis - 替换策略:LRU和LFU

insight

redis 3月日更

17张图带你搞懂ZooKeeper一致性原理!

Java小咖秀

程序员 TCP udp 传输协议

35岁了,还不知道,TCP为什么会粘包?【硬核图解】

小白debug

TCP 网络 协议栈 TCP/IP 网络层

金三银四了!必知必会,HTTP面试题!漫画图解超硬核!

小白debug

面试 网络编程 网络 HTTP 网络层

你不知道的 Proxy

阿宝哥

JavaScript Proxy web api

AI 驱动的智能异常处置:从异常发现到根因定位|QCon北京_AI&大模型_QCon全球软件开发大会_InfoQ精选文章