从「AI For What」到「Value From AI」,100+可落地实践案例打通 AI 实战最后一公里!
4 月 16 日-4 月 18 日,QCon 全球软件开发大会将在北京举办。本届大会锚定 Agentic AI 时代的软件工程重塑,聚焦 Agentic AI、多智能体协作、算力优化、技术债治理、多模态和 AI 原生基础设施等前沿话题,邀请来自腾讯、阿里、百度、华为、蚂蚁、小米、网易等企业技术专家,带来百余项真实落地案例,系统性分享前沿洞察与实战干货,以技术共创探索 AI 落地新路径。
亚马逊云科技 Agent 架构师章平已确认出席 “Agent 可观测性与评估工程” 专题,并发表题为《从“盲目调优”到“数据驱动”:大规模 Agent 的评估工程实践》的主题分享。Agent 在生产环境中的应用,因其非确定性推理与动态工具交互的特性,普遍面临质量难以量化、问题发现滞后、优化方向不明确的挑战。一个案例是:某旅游搜索 Agent 用户参与度下降 15%,传统监控显示所有技术指标正常,但用户体验持续降级长达 7 周才被发现和修复。根本原因在于缺乏系统化的评估体系。

章平,2014 年起就职于亚马逊云科技,先后加入技术支持和解决方案团队,致力于客户业务在云上高效落地。对于各类云计算产品和技术,特别是在生成式 AI、Agent、数据库和大数据方面,拥有丰富的技术实践和行业解决方案经验。此前曾就职于 Sun,Oracle,Intel 等 IT 企业。他在本次会议的详细演讲内容如下:
演讲提纲
1. 开场:从"盲目调优"到"数据驱动"
真实案例:旅游搜索 Agent 的 7 周隐形降级
用户参与度下降 15%,无效反馈增加 23%
传统监控盲区:响应时间、错误率全部正常
根本原因:缺乏系统化的评估体系
2. Agent 评估的本质挑战
为什么传统测试方法不够用?
非确定性:同一输入产生不同输出
主观性:有用性、语气等难以量化
多维度:需同时评估正确性、效率、成本
旅游搜索 Agent 的评估缺失
工具调用成功率 98%(技术指标正常)
工具选择准确性从 92% 降至 67%(质量指标异常)
如果有评估体系:提示词修改前就能发现问题
3. Agent 评估工程的方法论
评估的两种范式:Ground Truth vs LLM-as-Judge
评估的三个层次:Output, Trace , Session
评估体系的构建流程(核心方法论): 能力评估/回归评估/生产监控
评估任务设计的最佳实践:任务来源真实,任务质量要严格,评估器要校准。完整案例:客服退款场景的评估设计
处理非确定性:pass@k 与 pass^k
结合可观测性的自动化评估
4. 工程实践与落地路径
从零到一:构建评估体系
工具选型建议:评估框架/可观测性平台/选型原则
真实案例:三个不同场景 Agent 的评估设计:编码,、客服、研究
避坑指南
5. 总结与展望
您认为,这样的技术在实践过程中有哪些痛点?
评估任务设计的质量控制难
LLM-as-Judge 的可靠性与成本平衡
非确定性带来的评估复杂度
评估与开发流程的集成难度
生产环境评估的采样策略与性能开销
演讲亮点
从"问题驱动"到"方法论沉淀"的完整路径
以真实生产事故(7 周降级)开场,引出评估体系的必要性
系统化讲解评估方法论:两种范式、三个层次、三阶段演进
提供可落地的 8 周实施路线图,而不是泛泛而谈的概念
Ground Truth + LLM-as-Judge 的混合评估范式
不是简单的"用 LLM 评估一切",而是根据场景选择合适的评估方式
提供完整的客服退款场景 YAML 案例,展示如何设计多层次评估
讲解评估器校准机制,确保 LLM-as-Judge 的可靠性
自动化评估 + 可观测性数据的工程化闭环
不停留在"手动运行评估",而是通过可观测性数据实现自动化采样评估
完整代码示例:从采样 → 评估 → 告警 → 诊断的全流程
效果量化:7 周 → 2 小时发现 + 1 天修复,展示实际价值
处理非确定性的 pass@k 和 pass^k 方法
深入讲解 Agent 非确定性带来的评估挑战
提供 pass@k(至少一次成功)和 pass^k(全部成功)两种指标
明确不同产品场景的指标选择:开发阶段 vs 生产部署
三个不同场景的评估设计案例
编码 Agent、客服 Agent、研究 Agent 的评估设计对比
展示评估方法论在不同领域的适用性
提供可复用的评估设计模板
听众收益
一套可落地的 Agent 评估体系构建方法论
可直接复用的工程实践清单与踩坑经验
自动化评估 + 可观测性数据的集成思路
处理 Agent 非确定性的量化方法
真实生产案例的诊断与优化经验
除此之外,本次大会还策划了Agentic Engineering、多模态理解与生成的突破、记忆觉醒:智能体记忆系统的范式重塑与产业落地、具身智能与物理世界交互、Agent Infra 架构设计、AI 重塑数据生产与消费、AI 原生基础设施、AI 驱动的技术债治理、小模型与领域适配模型、大模型算力优化、Agent 可观测性与评估工程、AI for SRE等 20 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京站现场带来前沿技术洞察和一线实践经验。
更多详情可扫码或联系票务经理 18514549229 进行咨询。






