Agent 生产落地基石：可观测透视 + 评估飞轮的一体化建设实践｜QCon北京

从「AI For What」到「Value From AI」，100+可落地实践案例打通 AI 实战最后一公里！

4 月 16 日-4 月 18 日，QCon 全球软件开发大会将在北京举办。本届大会锚定 Agentic AI 时代的软件工程重塑，聚焦 Agentic AI、多智能体协作、算力优化、技术债治理、多模态和 AI 原生基础设施等前沿话题，邀请来自腾讯、阿里、百度、华为、蚂蚁、小米、网易等企业技术专家，带来百余项真实落地案例，系统性分享前沿洞察与实战干货，以技术共创探索 AI 落地新路径。

阿里云技术专家蔡健已确认出席 “Agent 可观测性与评估工程” 专题，并发表题为《Agent 生产落地基石：可观测透视 + 评估飞轮的一体化建设实践》的主题分享。当阿里云将 Agent 从原型推向核心生产系统时，真切遇到了传统软件体系无法解决的落地难题：Agent 的非确定性推理、动态工具交互形成了 “语义黑盒”—— 故障发生时查不到决策断层、优化时缺细粒度数据、多 Agent 协同后复杂度失控。更关键的是，QPS、延迟等传统指标根本无法衡量 “任务能不能成、决策合不合理”。他们在多个重要业务场景中踩过服务不稳定、质量漂移、成本超支的坑，最终意识到：必须针对 Agent 特性，从可观测和评估两个维度搭建落地保障体系。本次分享将复盘阿里云对内对外多业务场景的实践经验 —— 如何从 0 到 1 构建可落地的观测与评估方案，破解 Agent 生产落地的核心困局。

蔡健，具备多年互联网行业以及业务领域架构设计经验，目前聚焦阿里云 APM & AI 可观测领域，主要从事可观测产品 ARMS & CMS 的研发、设计与布道，具备丰富的可观测领域技术架构以及实践经验，推进 ARMS 应用性能监控和应用安全（RASP）融合解决方案落地。参与 OpenTelemetry GenAI 开源社区生态，关注大语言模型领域可观测技术架构演进，探索支持 AI 应用层到底层基础设施的全栈可观测能力解决方案以及最佳实践。他在本次会议的详细演讲内容如下：

演讲提纲
1. 从原型到生产，我们踩过的 3 类核心坑
不确定性：用低代码和高代码不同范式落地长周期多轮交互场景时，状态管理混乱、异常无法恢复、推理链路不固定等等
观测痛点：线上服务首包响应慢、成本不可控，但传统监控看不到完整的 Agent 执行链路
评估缺失：Agent 上线后质量逐渐退化，新功能发布导致部分场景不可用
2. Agent 可观测体系生产落地全流程实践
数据采集：AI 场景采集挑战以及解法
全链路追踪：跨系统打通的实操技巧
领域建模：数据关联的落地经验
3. Agent 评估体系从 0 到 1 搭建与闭环优化
评估价值：为什么传统测试没用？
用传统软件测试方法评估 Agent，出现 “质量验证手段失效”，“评估结果与用户反馈严重脱节”，“无法覆盖长尾意图” 的若干问题
评估准备：我们试过的方案与取舍
数据对比：LLM-as-Judge vs Code-as-Judge vs 人工标注的适用场景，多种混合评估方式兼顾以及置信度交叉验证
实践总结：选择高质量评估模板经验总结，构建黄金数据集核心原则，满足应用生命周期不同阶段的评估需求
评估架构：自动化落地的关键步骤
搭建流程：评估运行时环境部署→Experiment 多版本并行配置→评估器综合设置，实现评估结果到调优动作转化路径
避坑指南：如何解决“评估覆盖不充分”、“评估结果不可复现”、“批量评估耗时过长等待” 等问题
闭环优化：嵌入全生命周期实践
落地路径：将评估嵌入 “开发→测试→上线→运维” 的关键节点，基于效果度量机制设定 Agent 应用质量准入门槛的最佳实践
4. 案例分享：阿里云内部落地实践案例
5. 实践反思与未来探索
演进：Multi-Agent 协同场景中，跨智能体链路追踪以及执行轨迹的观测实现
思考：在长上下文多轮对话中，用户意图演化导致评估指标失效的应对思路
探索：尝试 “基于业务特征自动推荐评估策略”，降低人工成本的自动化机制
您认为，这样的技术在实践过程中有哪些痛点？
不同语言技术栈及 AI 框架（如 LangChain、LlamaIndex 等）快速演进，导致埋点适配成本高、数据格式碎片化
全链路追踪中客户端与服务端实体缺乏统一语义元信息（如 session_id、user_id、Agent_id），难以有效关联
Agent 实现路径多样、依赖环境复杂，难以覆盖长尾用户意图等，高质量评估常面临冷启动困难与基准缺失痛点
演讲亮点
全程基于核心业务场景的真实落地经验，复盘 “踩坑→解决→迭代” 的完整过程
基于多个真实生产场景的迭代经验，总结出可复用的 Agent 观测以及评估实操流程
听众收获
掌握构建面向 Agent 特性的可观测核心能力，从效果、性能、成本等维度建立生产级实践
理解 Agent 效果评估的关键设计原则，具备从 0 到 1 构建可落地、可扩展评估落地踩坑经验

除此之外，本次大会还策划了Agentic Engineering、多模态理解与生成的突破、记忆觉醒：智能体记忆系统的范式重塑与产业落地、具身智能与物理世界交互、Agent Infra 架构设计、AI 重塑数据生产与消费、AI 原生基础设施、AI 驱动的技术债治理、小模型与领域适配模型、大模型算力优化、Agent 可观测性与评估工程、AI for SRE等 20 多个专题论坛，届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京站现场带来前沿技术洞察和一线实践经验。

更多详情可扫码或联系票务经理 18514549229 进行咨询。

创作场景

Agent 生产落地基石：可观测透视 + 评估飞轮的一体化建设实践｜QCon 北京