从“盲目调优”到“数据驱动”：大规模 Agent 的评估工程实践｜QCon北京

从「AI For What」到「Value From AI」，100+可落地实践案例打通 AI 实战最后一公里！

4 月 16 日-4 月 18 日，QCon 全球软件开发大会将在北京举办。本届大会锚定 Agentic AI 时代的软件工程重塑，聚焦 Agentic AI、多智能体协作、算力优化、技术债治理、多模态和 AI 原生基础设施等前沿话题，邀请来自腾讯、阿里、百度、华为、蚂蚁、小米、网易等企业技术专家，带来百余项真实落地案例，系统性分享前沿洞察与实战干货，以技术共创探索 AI 落地新路径。

亚马逊云科技 Agent 架构师章平已确认出席 “Agent 可观测性与评估工程” 专题，并发表题为《从“盲目调优”到“数据驱动”：大规模 Agent 的评估工程实践》的主题分享。Agent 在生产环境中的应用，因其非确定性推理与动态工具交互的特性，普遍面临质量难以量化、问题发现滞后、优化方向不明确的挑战。一个案例是：某旅游搜索 Agent 用户参与度下降 15%，传统监控显示所有技术指标正常，但用户体验持续降级长达 7 周才被发现和修复。根本原因在于缺乏系统化的评估体系。

章平，2014 年起就职于亚马逊云科技，先后加入技术支持和解决方案团队，致力于客户业务在云上高效落地。对于各类云计算产品和技术，特别是在生成式 AI、Agent、数据库和大数据方面，拥有丰富的技术实践和行业解决方案经验。此前曾就职于 Sun，Oracle，Intel 等 IT 企业。他在本次会议的详细演讲内容如下：

演讲提纲
1. 开场：从"盲目调优"到"数据驱动"
真实案例：旅游搜索 Agent 的 7 周隐形降级
用户参与度下降 15%，无效反馈增加 23%
传统监控盲区：响应时间、错误率全部正常
根本原因：缺乏系统化的评估体系
2. Agent 评估的本质挑战
为什么传统测试方法不够用？
非确定性：同一输入产生不同输出
主观性：有用性、语气等难以量化
多维度：需同时评估正确性、效率、成本
旅游搜索 Agent 的评估缺失
工具调用成功率 98%（技术指标正常）
工具选择准确性从 92% 降至 67%（质量指标异常）
如果有评估体系：提示词修改前就能发现问题
3. Agent 评估工程的方法论
评估的两种范式：Ground Truth vs LLM-as-Judge
评估的三个层次：Output, Trace , Session
评估体系的构建流程（核心方法论）: 能力评估/回归评估/生产监控
评估任务设计的最佳实践：任务来源真实，任务质量要严格，评估器要校准。完整案例：客服退款场景的评估设计
处理非确定性：pass@k 与 pass^k
结合可观测性的自动化评估
4. 工程实践与落地路径
从零到一：构建评估体系
工具选型建议：评估框架/可观测性平台/选型原则
真实案例：三个不同场景 Agent 的评估设计：编码,、客服、研究
避坑指南
5. 总结与展望
您认为，这样的技术在实践过程中有哪些痛点？
评估任务设计的质量控制难
LLM-as-Judge 的可靠性与成本平衡
非确定性带来的评估复杂度
评估与开发流程的集成难度
生产环境评估的采样策略与性能开销
演讲亮点
从"问题驱动"到"方法论沉淀"的完整路径
以真实生产事故（7 周降级）开场，引出评估体系的必要性
系统化讲解评估方法论：两种范式、三个层次、三阶段演进
提供可落地的 8 周实施路线图，而不是泛泛而谈的概念
Ground Truth + LLM-as-Judge 的混合评估范式
不是简单的"用 LLM 评估一切"，而是根据场景选择合适的评估方式
提供完整的客服退款场景 YAML 案例，展示如何设计多层次评估
讲解评估器校准机制，确保 LLM-as-Judge 的可靠性
自动化评估 + 可观测性数据的工程化闭环
不停留在"手动运行评估"，而是通过可观测性数据实现自动化采样评估
完整代码示例：从采样 → 评估 → 告警 → 诊断的全流程
效果量化：7 周 → 2 小时发现 + 1 天修复，展示实际价值
处理非确定性的 pass@k 和 pass^k 方法
深入讲解 Agent 非确定性带来的评估挑战
提供 pass@k（至少一次成功）和 pass^k（全部成功）两种指标
明确不同产品场景的指标选择：开发阶段 vs 生产部署
三个不同场景的评估设计案例
编码 Agent、客服 Agent、研究 Agent 的评估设计对比
展示评估方法论在不同领域的适用性
提供可复用的评估设计模板
听众收益
一套可落地的 Agent 评估体系构建方法论
可直接复用的工程实践清单与踩坑经验
自动化评估 + 可观测性数据的集成思路
处理 Agent 非确定性的量化方法
真实生产案例的诊断与优化经验

除此之外，本次大会还策划了Agentic Engineering、多模态理解与生成的突破、记忆觉醒：智能体记忆系统的范式重塑与产业落地、具身智能与物理世界交互、Agent Infra 架构设计、AI 重塑数据生产与消费、AI 原生基础设施、AI 驱动的技术债治理、小模型与领域适配模型、大模型算力优化、Agent 可观测性与评估工程、AI for SRE等 20 多个专题论坛，届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京站现场带来前沿技术洞察和一线实践经验。

更多详情可扫码或联系票务经理 18514549229 进行咨询。

创作场景

从“盲目调优”到“数据驱动”：大规模 Agent 的评估工程实践｜QCon 北京