写点什么

给 Agent 做“CT”:大规模 Agent 的可观测与质量保障体系|QCon 北京

  • 2026-03-25
    北京
  • 本文字数:2052 字

    阅读完需:约 7 分钟

从「AI For What」到「Value From AI」,100+可落地实践案例打通 AI 实战最后一公里!

4 月 16 日-4 月 18 日,QCon 全球软件开发大会将在北京举办。本届大会锚定 Agentic AI 时代的软件工程重塑,聚焦 Agentic AI、多智能体协作、算力优化、技术债治理、多模态和 AI 原生基础设施等前沿话题,邀请来自腾讯、阿里、百度、华为、蚂蚁、小米、网易等企业技术专家,带来百余项真实落地案例,系统性分享前沿洞察与实战干货,以技术共创探索 AI 落地新路径。

火山引擎应用观测技术负责人钱世俊已确认出席 “Agent 可观测性与评估工程” 专题,并发表题为给 Agent 做“CT”:大规模 Agent 的可观测与质量保障体系的主题分享。Agent 在生产环境中的应用,因其“模型 + 数据 + 工具链”的复杂黑盒特性,普遍面临故障排查困难、性能优化缓慢、成本与质量难以平衡的挑战。为解决此问题,火山引擎构建了一套从端到端可观测到工程化闭环的 Agent 质量保障体系。方案通过统一探针 OneAgent 实现从 App/Web/小程序到 AI 网关、Agent、工具乃至 LLM 的全链路 MTL 统一采集,打通了观测数据的孤岛。基于此,他们建立起从观测数据加工与转换、到故障排查与性能优化的工程闭环,实现从埋点到根因的快速定位。同时,观测数据的回流与离线/在线评测、Agent 轨迹评测相结合,驱动了 Agent 的持续改进与成本优化,为 Agent 的可靠、高效、经济运行提供坚实保障。

钱世俊,字节跳动火山引擎云基础应用观测技术负责人,曾就职于蚂蚁、eBay 等企业,长期投入云计算与可观测等领域的架构设计与落地实践,并积极投身各项基础设施开源项目的维护工作,曾多次在 Open Source Summit、KubeCon 等会议进行主题分享。他在本次会议的详细演讲内容如下:

演讲提纲

  1. 背景与挑战:当 Agent 遇上生产环境

  • Agent 的“黑盒”特性:不只是代码,更是模型与数据的结合体

  • 我们面临的核心问题:排障难、优化慢、成本失控、质量不可靠

  1. 端到端可观测

  • 全链路 Trace 打通:从用户终端(App/Web/小程序) -> AI 网关 -> Agent -> 工具调用 -> LLM 的全链路追踪

  • MTL 统一采集:通过统一探针 OneAgent,实现 Log、Trace、Metric 数据的高效采集

  • 观测数据加工、转换和管理:如何灵活的进行加工转换,生成更贴近观测目标的数据,并提供体系化的指标管理能力

  • 故障排查与性能优化:观测数据之上的故障排查与性能优化分析能力

  1. 统一与预置:提升可观测性平台的工程效率

  • 全栈可观测门户:在一个界面看尽所有,从业务大盘到单次 Trace 到云产品观测

  • 统一的集成中心:提供标准化的数据接入与治理能力,支持不同来源、不同形态的观测数据统一接入,通过预置的解析与校验规则,确保多源数据的口径一致性与高质量

  • 预置看板:为典型 Agent 场景(如 RAG、代码生成)提供开箱即用的分析视图

  • 预置告警规则注入:新 Agent 服务上线时,自动获得一套基础告警规则(如高延迟、高失败率)

  1. 数据回流与评测:Agent 的质量保障体系

  • 数据回流:打通观测体系与评测体系的最后一公里

  • 在离线评测:如何利用观测数据回流的评测集,对 Agent 进行效果比对与回归检测

  • Agent 轨迹评测:如何验证 Agent 决策链条的合理性

  1. 总结与展望

您认为,这样的技术在实践过程中有哪些痛点?

  • 跨端 Trace 关联复杂

  • 采样策略与性能开销的平衡

  • 观测口径不一致

  • AI 指标的定义与验证难

  • 评测体系的置信度与维护成本

演讲亮点

  • 从“黑盒 Agent”到“可解释系统”的端到端打通

    从端侧(App/Web/小程序)一路打到 AI 网关、Agent、工具、LLM,配合 OneAgent 的 MTL 统一采集,让本来高度黑盒的 Agent 链路变得可追踪、可还原、可解释。

  • 观测数据加工 + 故障排查的工程化闭环

    不停留在“看到数据”,而是通过观测数据加工和转换,叠加故障排查与性能分析能力,给出一套“从埋点到数据、从数据到根因”的工程实践,而不是泛泛而谈的可观测性概念。

  • 统一门户 + 集成中心 + 预置化能力,支撑多场景复用

    通过全栈可观测门户和统一集成中心,将服务端、客户端、云产品、AI 应用观测打在一个界面,并用预置看板、预置告警规则,把典型 Agent 场景沉淀成可复用资产,降低新团队、新 Agent 的接入门槛。

  • 数据回流驱动的评测体系,而不是“拍脑袋调参”

    依托观测数据回流构建评测集,在离线评测阶段做版本对比与回归,在在线评测阶段基于真实 Trace 做持续质量监控,再结合 Agent 轨迹评测验证决策链条,把“观测”变成“可量化的优化循环”,真正形成质量保障闭环。

听众收益

  • 一套可落地的 Agent 可观测性架构蓝图

  • 可直接复用的工程实践清单与踩坑经验

  • 观测—数据回流—评测一体化的思路模板

除此之外,本次大会还策划了Agentic Engineering多模态理解与生成的突破记忆觉醒:智能体记忆系统的范式重塑与产业落地具身智能与物理世界交互Agent Infra 架构设计AI 重塑数据生产与消费AI 原生基础设施AI 驱动的技术债治理小模型与领域适配模型大模型算力优化Agent 可观测性与评估工程AI for SRE等 20 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京站现场带来前沿技术洞察和一线实践经验。

更多详情可扫码或联系票务经理 18514549229 进行咨询。