写点什么

AI 驱动的智能异常处置:从异常发现到根因定位|QCon 北京

  • 2025-03-26
    北京
  • 本文字数:1460 字

    阅读完需:约 5 分钟

AI 驱动的智能异常处置:从异常发现到根因定位|QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。


异常处置包含异常发现、问题定界和根因定位等环节,一个高效的异常处置流程对于保障平台的稳定性起到至关重要的作用。然而平台本身的复杂度以及海量的多元异构数据给异常处置带来了巨大的挑战,大模型等 AI 技术的演进则为应对这些挑战提供了新的思路。本次演讲将从阿里云计算平台的运维场景出发,分享从异常发现到问题定界和根因定位各环节的算法选型和设计思路,包括通用的时间序列异常检测、高效的日志聚类和精准的多 Agent 根因定位框架。



张颖莹是阿里云计算平台智能运维算法团队负责人,在智能运维领域深耕 8 年。用产品和服务支撑计算平台 MaxCompute、Flink、Dataworks、PAI 等多个大数据 &AI 产品的智能化运维。多项研究成果被 ICLR,KDD,VLDB, SIGMOD, ICDE,WWW, CIKM,ICASSP 等国际顶会接收,并带领团队获得了 ICASSP 国际智能运维算法大赛冠军。曾受邀在 QCon,ArchSummit,DataFunCon,FlinkForward 等大会发表演讲,同时参与了阿里巴巴开源大数据运维平台 SREWorks 开发和信通院《智能运维能力成熟度模型》行业标准编写。本次会议中,她的详细演讲内容如下:


演讲提纲

1. 阿里云大数据运维背景

  • 阿里云大数据 & AI 平台介绍

  • 异常处置面临的核心挑战

2. 通用异常发现和定界

  • 通用时间序列异常检测

  • 基于下钻和日志聚类的问题定界

3. 多 Agent 根因定位框架

  • Agent 角色设定

  • 工具箱建设

  • 多 Agent 工作流编排

4. 通用异常处置平台构建

  • 大模型应用部署框架

  • 异常处置平台建设

  • 线上应用效果

5. 总结和展望


您认为,这样的技术在实践过程中有哪些痛点?

大模型多 Agent 框架中,用工具的方式整合了算法小模型和运维业务分析工具,这些工具本身的性能和精度,对于大模型最终的推断效果起到关键作用。同时多 Agent 框架本质上实现了复杂任务的拆解,相较于单 Agent 框架会进行更多次的推理,适用于较复杂的平台


演讲亮点

  • 异常发现部分的算法设计充分考虑了运维场景中关注典型异常类型,具备通用性和高性能。相关论文被顶会 SIGMOD/KDD 等接收。同时利用问题定界能力对异常发现结果进行过滤,可以实现有效的告警降噪

  • 根因定位部分采用的大模型多 Agent 框架,基于平台模块进行 Agent 角色的设定,可以模拟出现实世界中不同模块专家协同定位的场景, 同时在每个 Agent 内部整合了算法小模型和运维业务分析工具,增强了结果的可靠性


听众收益

  • 通过阿里云计算平台的实践经验和案例,听众可以了解在 AI 如何赋能运维场景中非常核心的异常处置流程

  • 本次分享介绍的算法框架,已经被国际顶会接收,具备技术前沿性,通过分享观众可以了解框架的技术细节

  • 通过未来展望,听众可以了解智能运维未来发展的趋势和需要攻破的难题


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀大二以上学生加入志愿者服务,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-03-26 19:186250

评论

发布
暂无评论
发现更多内容

算法训练营 - 学习笔记 - 第五周

心在飞

入门到精通!阿里码农熬了2晚整理的Java工具,真香

飞飞JAva

Java java工具类

字节一二三面,面经(已经OC)四月底真实面试经历!

Java大蜗牛

Java 程序员 面试 算法 后端

架构实战营 模块二 作业

Pitt

架构实战营

自研消息队列架构设计文档

菠萝吹雪—Code

架构实战营

超级全面的测试用例设计,你确定不来看一看?

程序员阿沐

软件测试 测试用例 测试工程师

太简单了!这套Java异常处理的总结,80%的人都没看过

牛哄哄的java大师

Java

出游时,请继续戴好口罩

石云升

新冠疫苗 5月日更

封神总结!蚂蚁金服+滴滴+美团+拼多多+腾讯15万字Java面试题

Java架构之路

Java 程序员 架构 面试 编程语言

自研消息队列架构设计文档

贯通

#架构实战营

不要轻言放弃,阿里P8架构师分享十年学习生涯

Java架构师迁哥

区块链与物联网融合发展都会有哪些机遇与挑战

CECBC

区块链

音视频编解码流程与如何使用FFMPEG命令进行音视频处理

张音乐

音视频 ffmpeg

Dubbo 动态配置中心

青年IT男

dubbo

【死磕JVM】看完这篇我也会排查JVM内存过高了 就是玩儿!

牧小农

JVM;

GitHub首次上线!华为顶级工程师手写的这份网络协议手册全面开源

Java架构之路

Java 程序员 面试 编程语言 计算机

Golang实现文件复制的技巧

liuzhen007

Go 语言 5月日更

MySQL-技术专题-主从复制

码界西柚

MySQL MySQL 高可用 高可用架构 5月日更

天时地利人和—一个传奇操作系统的诞生记

兆熊

unix 历史

从简历被拒到收割8个大厂offer,我用了3个月成功破茧成蝶

Java架构之路

Java 程序员 架构 面试 编程语言

新手学习微服务,得先看看这篇文章

Java架构师迁哥

进击的速溶咖啡:当中国AI开始玩工业化

脑极体

网络攻防学习笔记 Day5

穿过生命散发芬芳

5月日更 网络攻防

架构设计模块3 - 消息队列架构设计文档

Presley

架构实战营

Vue Router 10 条高级技巧

Thrash

技巧

SpringBoot-技术专题-教你使用Cache缓存组件

码界西柚

spring springboot cache 5月日更

数字资产的发行是全球都无法阻挡的大趋势!

CECBC

数字资产

建筑行业全周期区块链产融平台

CECBC

建筑行业

【LeetCode】删除并获得点数Java题解

Albert

算法 LeetCode 5月日更

去中心化、P2P、NAT浅析

IT酷盖

音视频 WebRTC 去中心化

Java开发项目模板16步快速搭建,拒绝重复性工作!

北游学Java

Java 项目 模板

AI 驱动的智能异常处置:从异常发现到根因定位|QCon北京_AI&大模型_QCon全球软件开发大会_InfoQ精选文章