写点什么

从“盲目调优”到“数据驱动”:大规模 Agent 的评估工程实践|QCon 北京

  • 2026-03-27
    北京
  • 本文字数:1907 字

    阅读完需:约 6 分钟

从「AI For What」到「Value From AI」,100+可落地实践案例打通 AI 实战最后一公里!

4 月 16 日-4 月 18 日,QCon 全球软件开发大会将在北京举办。本届大会锚定 Agentic AI 时代的软件工程重塑,聚焦 Agentic AI、多智能体协作、算力优化、技术债治理、多模态和 AI 原生基础设施等前沿话题,邀请来自腾讯、阿里、百度、华为、蚂蚁、小米、网易等企业技术专家,带来百余项真实落地案例,系统性分享前沿洞察与实战干货,以技术共创探索 AI 落地新路径。

亚马逊云科技 Agent 架构师章平已确认出席 “Agent 可观测性与评估工程” 专题,并发表题为从“盲目调优”到“数据驱动”:大规模 Agent 的评估工程实践的主题分享。Agent 在生产环境中的应用,因其非确定性推理与动态工具交互的特性,普遍面临质量难以量化、问题发现滞后、优化方向不明确的挑战。一个案例是:某旅游搜索 Agent 用户参与度下降 15%,传统监控显示所有技术指标正常,但用户体验持续降级长达 7 周才被发现和修复。根本原因在于缺乏系统化的评估体系。

章平,2014 年起就职于亚马逊云科技,先后加入技术支持和解决方案团队,致力于客户业务在云上高效落地。对于各类云计算产品和技术,特别是在生成式 AI、Agent、数据库和大数据方面,拥有丰富的技术实践和行业解决方案经验。此前曾就职于 Sun,Oracle,Intel 等 IT 企业。他在本次会议的详细演讲内容如下:

演讲提纲

1. 开场:从"盲目调优"到"数据驱动"

  • 真实案例:旅游搜索 Agent 的 7 周隐形降级

    用户参与度下降 15%,无效反馈增加 23%

    传统监控盲区:响应时间、错误率全部正常

    根本原因:缺乏系统化的评估体系

2. Agent 评估的本质挑战

  • 为什么传统测试方法不够用?

    非确定性:同一输入产生不同输出

    主观性:有用性、语气等难以量化

    多维度:需同时评估正确性、效率、成本

  • 旅游搜索 Agent 的评估缺失

    工具调用成功率 98%(技术指标正常)

    工具选择准确性从 92% 降至 67%(质量指标异常)

    如果有评估体系:提示词修改前就能发现问题

3. Agent 评估工程的方法论

  • 评估的两种范式:Ground Truth vs LLM-as-Judge

  • 评估的三个层次:Output, Trace , Session

  • 评估体系的构建流程(核心方法论): 能力评估/回归评估/生产监控

  • 评估任务设计的最佳实践:任务来源真实,任务质量要严格,评估器要校准。完整案例:客服退款场景的评估设计

  • 处理非确定性:pass@k 与 pass^k

  • 结合可观测性的自动化评估

4. 工程实践与落地路径

  • 从零到一:构建评估体系

  • 工具选型建议:评估框架/可观测性平台/选型原则

  • 真实案例:三个不同场景 Agent 的评估设计:编码,、客服、研究

  • 避坑指南

5. 总结与展望

您认为,这样的技术在实践过程中有哪些痛点?

  • 评估任务设计的质量控制难

  • LLM-as-Judge 的可靠性与成本平衡

  • 非确定性带来的评估复杂度

  • 评估与开发流程的集成难度

  • 生产环境评估的采样策略与性能开销

演讲亮点

  • 从"问题驱动"到"方法论沉淀"的完整路径

    以真实生产事故(7 周降级)开场,引出评估体系的必要性

    系统化讲解评估方法论:两种范式、三个层次、三阶段演进

    提供可落地的 8 周实施路线图,而不是泛泛而谈的概念

  • Ground Truth + LLM-as-Judge 的混合评估范式

    不是简单的"用 LLM 评估一切",而是根据场景选择合适的评估方式

    提供完整的客服退款场景 YAML 案例,展示如何设计多层次评估

    讲解评估器校准机制,确保 LLM-as-Judge 的可靠性

  • 自动化评估 + 可观测性数据的工程化闭环

    不停留在"手动运行评估",而是通过可观测性数据实现自动化采样评估

    完整代码示例:从采样 → 评估 → 告警 → 诊断的全流程

    效果量化:7 周 → 2 小时发现 + 1 天修复,展示实际价值

  • 处理非确定性的 pass@k 和 pass^k 方法

    深入讲解 Agent 非确定性带来的评估挑战

    提供 pass@k(至少一次成功)和 pass^k(全部成功)两种指标

    明确不同产品场景的指标选择:开发阶段 vs 生产部署

  • 三个不同场景的评估设计案例

    编码 Agent、客服 Agent、研究 Agent 的评估设计对比

    展示评估方法论在不同领域的适用性

    提供可复用的评估设计模板

听众收益

  • 一套可落地的 Agent 评估体系构建方法论

  • 可直接复用的工程实践清单与踩坑经验

  • 自动化评估 + 可观测性数据的集成思路

  • 处理 Agent 非确定性的量化方法

  • 真实生产案例的诊断与优化经验

除此之外,本次大会还策划了Agentic Engineering多模态理解与生成的突破记忆觉醒:智能体记忆系统的范式重塑与产业落地具身智能与物理世界交互Agent Infra 架构设计AI 重塑数据生产与消费AI 原生基础设施AI 驱动的技术债治理小模型与领域适配模型大模型算力优化Agent 可观测性与评估工程AI for SRE等 20 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京站现场带来前沿技术洞察和一线实践经验。

更多详情可扫码或联系票务经理 18514549229 进行咨询。