50万奖金+官方证书,深圳国际金融科技大赛正式启动,点击报名 了解详情
写点什么

AI 驱动的智能异常处置:从异常发现到根因定位|QCon 北京

  • 2025-03-26
    北京
  • 本文字数:1460 字

    阅读完需:约 5 分钟

AI 驱动的智能异常处置:从异常发现到根因定位|QCon北京

2025 年 4 月 10 - 12 日,QCon 全球软件开发大会将在北京召开,大会以 “智能融合,引领未来” 为主题,将汇聚各领域的技术先行者以及创新实践者,为行业发展拨云见日。


异常处置包含异常发现、问题定界和根因定位等环节,一个高效的异常处置流程对于保障平台的稳定性起到至关重要的作用。然而平台本身的复杂度以及海量的多元异构数据给异常处置带来了巨大的挑战,大模型等 AI 技术的演进则为应对这些挑战提供了新的思路。本次演讲将从阿里云计算平台的运维场景出发,分享从异常发现到问题定界和根因定位各环节的算法选型和设计思路,包括通用的时间序列异常检测、高效的日志聚类和精准的多 Agent 根因定位框架。



张颖莹是阿里云计算平台智能运维算法团队负责人,在智能运维领域深耕 8 年。用产品和服务支撑计算平台 MaxCompute、Flink、Dataworks、PAI 等多个大数据 &AI 产品的智能化运维。多项研究成果被 ICLR,KDD,VLDB, SIGMOD, ICDE,WWW, CIKM,ICASSP 等国际顶会接收,并带领团队获得了 ICASSP 国际智能运维算法大赛冠军。曾受邀在 QCon,ArchSummit,DataFunCon,FlinkForward 等大会发表演讲,同时参与了阿里巴巴开源大数据运维平台 SREWorks 开发和信通院《智能运维能力成熟度模型》行业标准编写。本次会议中,她的详细演讲内容如下:


演讲提纲

1. 阿里云大数据运维背景

  • 阿里云大数据 & AI 平台介绍

  • 异常处置面临的核心挑战

2. 通用异常发现和定界

  • 通用时间序列异常检测

  • 基于下钻和日志聚类的问题定界

3. 多 Agent 根因定位框架

  • Agent 角色设定

  • 工具箱建设

  • 多 Agent 工作流编排

4. 通用异常处置平台构建

  • 大模型应用部署框架

  • 异常处置平台建设

  • 线上应用效果

5. 总结和展望


您认为,这样的技术在实践过程中有哪些痛点?

大模型多 Agent 框架中,用工具的方式整合了算法小模型和运维业务分析工具,这些工具本身的性能和精度,对于大模型最终的推断效果起到关键作用。同时多 Agent 框架本质上实现了复杂任务的拆解,相较于单 Agent 框架会进行更多次的推理,适用于较复杂的平台


演讲亮点

  • 异常发现部分的算法设计充分考虑了运维场景中关注典型异常类型,具备通用性和高性能。相关论文被顶会 SIGMOD/KDD 等接收。同时利用问题定界能力对异常发现结果进行过滤,可以实现有效的告警降噪

  • 根因定位部分采用的大模型多 Agent 框架,基于平台模块进行 Agent 角色的设定,可以模拟出现实世界中不同模块专家协同定位的场景, 同时在每个 Agent 内部整合了算法小模型和运维业务分析工具,增强了结果的可靠性


听众收益

  • 通过阿里云计算平台的实践经验和案例,听众可以了解在 AI 如何赋能运维场景中非常核心的异常处置流程

  • 本次分享介绍的算法框架,已经被国际顶会接收,具备技术前沿性,通过分享观众可以了解框架的技术细节

  • 通过未来展望,听众可以了解智能运维未来发展的趋势和需要攻破的难题


除此之外,本次大会还策划了多模态大模型及应用AI 驱动的工程生产力面向 AI 的研发基础设施不被 AI 取代的工程师大模型赋能 AIOps云成本优化Lakehouse 架构演进越挫越勇的大前端等专题,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可扫码或联系票务经理 18514549229 咨询。



为确保大会顺利举行,现诚邀大二以上学生加入志愿者服务,时长 3.5 天。可与大咖交流、获极客时间 VIP 月卡、大会演讲视频资源和证书。主办方提供午餐和交通支持。时间:4 月 9 日 13:00-4 月 12 日 18:00,地点:北京万达嘉华酒店,报名链接:https://www.infoq.cn/form/?id=2088

2025-03-26 19:186776

评论

发布
暂无评论
发现更多内容

Python接口自动化之常见用例读取方法介绍

行者AI

测试 #python

我看JAVA 之 JVM

awen

Java JVM

自定义 View 功能上线,你的小程序可以更多变

蚂蚁集团移动开发平台 mPaaS

小程序 mPaaS 自定义控件

与8090创业者、投资人共话“初心”!2021中国新青年创业投资峰会举办

创业邦

一周信创舆情观察(6.14~6.20)

统小信uos

腾讯同事内推的那位Linux C/C++后端开发同学面试没过......

Linux服务器开发

Linux C/C++ Linux服务器开发 Linux后台开发 Linux网络编程

数据校检

若尘

计算机组成原理 6月日更

最强大的内在激励:自我承诺

石云升

激励 职场经验 管理经验 6月日更

仿imtoken钱包源码开发,imtoken去中心化钱包开发

Flutter Webview添加Cookie的正确姿势

小呆呆666

flutter ios android 大前端

windows11泄露版尝鲜体验新功能!!!

学神来啦

win10 win11 windows10 windows 11

4面字节跳动拿到Offer,灵魂拷问

欢喜学安卓

android 程序员 面试 移动开发

Quick BI的可视分析之路

瓴羊企业智能服务

阿里云 数据中台 数据分析 数据可视化 商业分析

空手撸SOLID架构设计原则,六大原则层层解析,你绝想不到

Java MySQL 程序员

与其摸鱼,不如来看:高性能消息中间件NSQ解析的整体介绍

用node写个简单的脚手架!

Node cli

CloudQuery 使用教程之《No.1 基础入门》

BinTools图尔兹

数据库 程序员 dba 国产数据库 运维开发

Flutter&Dart Callback转同步

小呆呆666

flutter ios android 大前端

fish_redux使用详解---看完就会用!

小呆呆666

flutter ios android 大前端 社区

Visual Studio 2010下ASPX页面的TreeView控件循环遍历

吴脑的键客

C#

蜜雪冰城主题曲血洗B站:企业自媒体运营如何接地气

石头IT视角

WasmEdge (曾用名 SSVM) 成为 CNCF 沙箱项目

WasmEdge

云计算 云原生 webassembly cncf

限量!Alibaba首发“Java成长笔记”,差距不止一点点

Java 编程 程序员 架构 面试

4个改变你编程技能的小技巧,建议细读

欢喜学安卓

android 程序员 面试 移动开发

阿里云中间件首席架构师李小平:企业为什么需要云原生?

阿里巴巴云原生

Github上星标85k的,图解操作系统、网络、计算机 PDF,竟是阿里的?

Java架构师迁哥

看完阿里开源笔记,我终于敢说精通“网络协议”了

Java架构师迁哥

为什么vacuum后表还是继续膨胀?

华为云开发者联盟

索引 GaussDB 元组 VACUUM 行存表

网络攻防学习笔记 Day54

穿过生命散发芬芳

网络攻防 6月日更

企业想要升级生产管理系统,有哪些好用的低代码平台推荐?

优秀

低代码

七牛云 霍锴:SDK 是一款技术服务的门面,如何方便用户高效接入是前提|Meetup 讲师专访

七牛云

音视频 sdk Meetup

AI 驱动的智能异常处置:从异常发现到根因定位|QCon北京_AI&大模型_QCon全球软件开发大会_InfoQ精选文章