10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

抢回 50% 的值班时间:字节跳动 SRE Agent 从 0 到 1 的降噪与排障实践|QCon 上海

  • 2025-09-16
    北京
  • 本文字数:1857 字

    阅读完需:约 6 分钟

大小:992.19K时长:05:38
抢回 50% 的值班时间:字节跳动 SRE Agent 从 0 到 1 的降噪与排障实践|QCon上海

如果你也关注 Agent、AI 搜索、多模态、工程化等话题,一定不要错过这 100+可落地的实践案例!


10 月 23 日-10 月 25 日,QCon全球软件开发大会将在上海举办。本次大会将聚焦 Agentic AI、具身智能、强化学习框架、端侧大模型实践、多智能体协作等热门话题,以及 AI 时代下的软件研发、可观测、开源等技术实践,邀请来自腾讯、阿里、字节跳动、华为、蚂蚁集团、小红书等企业的技术专家,和来自清华大学、北京邮电大学、浙江大学的顶尖高校讲师,和你一起重构技术认知与能力边界!


字节跳动 Dev-Infra 观测平台算法负责人董善东博士已确认出席并发表题为抢回 50% 的值班时间:字节跳动 SRE Agent 从 0 到 1 的降噪与排障实践的主题分享。研发与 SRE 团队日常工作中,主要被三类任务消耗大量时间:半夜因告警被叫醒、反复查询指标日志及排障分析、撰写复盘总结报告。传统自动化及 AIOps 实践虽然在一定程度上缓解了部分环节的问题,但由于知识难以结构化复用、工具体系分散,导致难以有效融合多源观测数据与专家知识,且难以泛化应用于多样化场景。团队提出基于大语言模型(LLM)的“ 告警值守 SRE Agent”,实现告警降噪自动处理、微服务根因定位与个性化分析,最终生成值守报告,显著提升运维效率。



董善东博士现任字节跳动 Dev-Infra 观测平台算法负责人,深耕 AIOps & 可观测行业多年, 在异常检测、根因分析、Agent 应用等领域有比较深入的行业认知和产品功能 Build 经验。 曾就职于腾讯云、阿里云。他在本次会议的详细演讲内容如下:


演讲提纲

1. 告警值守场景的痛点、挑战和 Agent 的价值

  • 值守场景的痛点与挑战

  • 尽管引入智能检测,告警噪音问题依然严重影响值守效率

  • AIOps 虽解决了标准化微服务的根因分析(RCA)问题,但面对自定义分析需求存在瓶颈

  • 如何将用户个性化排查知识加载成可执行的分析模型?

  • 如何高效闭环实现“发现-分析-处理-预防”流程?

  • 引入 Agent 后, 可以解决哪些问题

2. 搭建 SRE Agent, 遇到的三大挑战

  • Prompt 与上下文信息日益增长,导致 Token 数量爆炸,影响模型性能

  • 代码逐渐演变为复杂 Workflow,面临效果与泛化能力的权衡

  • Agent 目前仅能执行简单 SOP,复杂个性化排查经验难以复用

3. SRE Agent 平台架构的“四横四纵”设计

  • 四横维度:观测数据层 / LLM 与知识引擎 / Agent 运行架构 / SRE Agent 应用场景

  • 四纵流程:Plan(规划)- Act(执行)- Assess(评估)- Learn(学习)

4. 初步实践:基于 Agent 的告警降噪实现

  • 噪音告警的定义、判定标准及处理流程

  • 基于历史对话与处理记录的知识提取与经验学习机制

  • 典型场景案例分析

5. “5A”行动计划:从 RCA Copilot 到自主分析与行动适应 Agent

  • Analyze & Plan:通过问题分析、规划思路、计划生成等多种方式,增强复杂 SOP 的规划能力

  • Act:采用 Plan-Executor 拆解机制,实现执行器解耦,提升复杂 SOP 执行效率

  • Adapt:引入记忆模板机制,提高相似问题的复用率

  • 典型场景案例分析

6. 总结与展望

  • Agent 在告警值守场景中的实践经验与教训总结

  • 面向未来,构建具备自主规划与迭代能力的“运维数字生命体”


您认为,这样的技术在实践过程中有哪些痛点?

  • Agent 如何与观测平台中多样化环境和数据源无缝打通,获取完整上下文信息

  • Workflow 与 Agent 之间的权衡,如何平衡确定性执行与探索可能性

  • 如何构建数据驱动与学习驱动的双轮机制,使每次执行成功经验沉淀为可复用的增长引擎


演讲亮点

  • 规模化场景与探索上限并存:结合噪音告警识别与个性化 SOP 执行,探讨告警值守场景的两种技术路径

  • 踩坑经验与架构创新:深入剖析 Agent 架构优化与演进历程,分享 Workflow 与 Agent 之间的设计权衡与取舍


听众收益

  • 全面了解字节跳动内部从 0 到 1 构建 SRE Agent 的实践历程

  • 深入理解知识提取与学习机制在噪音告警治理中的应用

  • 掌握通过 Plan-Act 循环提升复杂 SOP 执行能力的方法,解决自定义与个性化排障经验沉淀与执行难题


除此之外,本次大会还策划了多模态融合技术与创新应用混沌工程与全链路压测实践Data Infra for AIAgentic AI加速与反哺:AI 时代的可观测实践Vibe Coding端侧大模型的创新与应用大模型推理的工程实践AI 搜索技术的深水区模型训练与微调具身智能:当 AI 学会“动手思考”大模型驱动的制造革命AI4SE:软件研发提质增效实践AI 重塑视觉创作体验从“炫技”走向“实用”的 AI 产品大模型驱动的智能数据分析等 20 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 上海站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 680 元,详情可联系票务经理 18514549229 咨询。


2025-09-16 13:001

评论

发布
暂无评论

极盾故事|“五步”构建某三甲医院数据安全管理集成平台

极盾科技

数据安全

一起乐「FUN」天!大模型趣味赛等你来挑战!

飞桨PaddlePaddle

开发者 大模型

前端必学——实现电商图片放大镜效果(附代码)

小齐写代码

XTransfer与腾讯云达成战略合作 助力外贸数字化转型

XTransfer技术

腾讯云 出海 XTransfer 跨境金融

CloudQuery x GBase,信创数据库管控革新之路

BinTools图尔兹

sql 数据库管理 数据库安全 人大金仓 南大通用

即时通讯技术文集(第24期):音视频WebRTC好文合集 [共20篇]

JackJiang

网络编程 即时通讯 IM

火焰杯软件测试竞赛颁奖典礼在长春工业大学举行

霍格沃兹测试开发学社

「Macos最新」Rhino 8 for Mac(犀牛 8)中文激活版 支持M1

彩云

3d建模 Rhino 8

悦数图数据库 v3.6.0 发布|支持 Zone 管理,提升业务安全性和连续性

悦数图数据库

图数据库 悦数 杭州悦数

喜讯!MIAOYUN《电力云原生“一云多芯”大模型信创全适配解决方案》获评第二届中国赛宝信息技术应用创新优秀解决方案奖

MIAOYUN

AI 云原生 大模型 一云多芯解决方案 信创解决方案

OpenMLDB v0.8.4 诊断工具全面升级

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征

OpenMLDB SQL 开发调试神器 - OpenMLDB SQL Emulator

第四范式开发者社区

人工智能 机器学习 数据库 开源 特征

Tower for Mac注册激活 附 注册机

彩云

Tower Git客户端

Promise规范与原理解析 | 京东物流技术团队

京东科技开发者

前端 Promise JavaScrip 企业号11月PK榜

议题征集!2023 龙蜥操作系统大会硬核启动

OpenAnolis小助手

操作系统 龙蜥社区 2023龙蜥操作系统大会 智算 议题

下一代ETL工具:微服务架构的全新数据集成平台

谷云科技RestCloud

微服务 ETL

星河创新,开拓新纪!2023“星河产业应用创新奖”报名全面开启!

飞桨PaddlePaddle

星河社区

一次爽个够,80款H5精品小游戏合集

echeverra

H5小游戏

探索亚马逊云科技云存储服务的性能

亚马逊云科技 (Amazon Web Services)

存储 Amazon S3 云存储服务

前端技术探秘-Nodejs的CommonJS规范实现原理 | 京东物流技术团队

京东科技开发者

JavaScript node.js 前端 企业号11月PK榜 ChromeV8

零代码AppLink平台触发事件组件

谷云科技RestCloud

零代码 APPlink

技术分享 | 在 IDE 插件开发中接入 JCEF 框架

LigaAI

后端 IDEA web技术分享 前段 IDE插件

抢回 50% 的值班时间:字节跳动 SRE Agent 从 0 到 1 的降噪与排障实践|QCon上海_软件工程_QCon全球软件开发大会_InfoQ精选文章