写点什么

Agent 生产落地基石:可观测透视 + 评估飞轮的一体化建设实践|QCon 北京

  • 2026-03-28
    北京
  • 本文字数:2060 字

    阅读完需:约 7 分钟

从「AI For What」到「Value From AI」,100+可落地实践案例打通 AI 实战最后一公里!

4 月 16 日-4 月 18 日,QCon 全球软件开发大会将在北京举办。本届大会锚定 Agentic AI 时代的软件工程重塑,聚焦 Agentic AI、多智能体协作、算力优化、技术债治理、多模态和 AI 原生基础设施等前沿话题,邀请来自腾讯、阿里、百度、华为、蚂蚁、小米、网易等企业技术专家,带来百余项真实落地案例,系统性分享前沿洞察与实战干货,以技术共创探索 AI 落地新路径。

阿里云技术专家蔡健已确认出席 “Agent 可观测性与评估工程” 专题,并发表题为Agent 生产落地基石:可观测透视 + 评估飞轮的一体化建设实践的主题分享。当阿里云将 Agent 从原型推向核心生产系统时,真切遇到了传统软件体系无法解决的落地难题:Agent 的非确定性推理、动态工具交互形成了 “语义黑盒”—— 故障发生时查不到决策断层、优化时缺细粒度数据、多 Agent 协同后复杂度失控。更关键的是,QPS、延迟等传统指标根本无法衡量 “任务能不能成、决策合不合理”。他们在多个重要业务场景中踩过服务不稳定、质量漂移、成本超支的坑,最终意识到:必须针对 Agent 特性,从可观测和评估两个维度搭建落地保障体系。本次分享将复盘阿里云对内对外多业务场景的实践经验 —— 如何从 0 到 1 构建可落地的观测与评估方案,破解 Agent 生产落地的核心困局。

蔡健,具备多年互联网行业以及业务领域架构设计经验,目前聚焦阿里云 APM & AI 可观测领域,主要从事可观测产品 ARMS & CMS 的研发、设计与布道,具备丰富的可观测领域技术架构以及实践经验,推进 ARMS 应用性能监控和应用安全(RASP)融合解决方案落地。参与 OpenTelemetry GenAI 开源社区生态,关注大语言模型领域可观测技术架构演进,探索支持 AI 应用层到底层基础设施的全栈可观测能力解决方案以及最佳实践。他在本次会议的详细演讲内容如下:

演讲提纲

1. 从原型到生产,我们踩过的 3 类核心坑

  • 不确定性:用低代码和高代码不同范式落地长周期多轮交互场景时,状态管理混乱、异常无法恢复、推理链路不固定等等

  • 观测痛点:线上服务首包响应慢、成本不可控,但传统监控看不到 完整的 Agent 执行链路

  • 评估缺失:Agent 上线后质量逐渐退化,新功能发布导致部分场景不可用

2. Agent 可观测体系生产落地全流程实践

  • 数据采集:AI 场景采集挑战以及解法

  • 全链路追踪:跨系统打通的实操技巧

  • 领域建模:数据关联的落地经验

3. Agent 评估体系从 0 到 1 搭建与闭环优化

  • 评估价值:为什么传统测试没用?

    用传统软件测试方法评估 Agent,出现 “质量验证手段失效”,“评估结果与用户反馈严重脱节”,“无法覆盖长尾意图” 的若干问题

  • 评估准备:我们试过的方案与取舍

    数据对比:LLM-as-Judge vs Code-as-Judge vs 人工标注的适用场景,多种混合评估方式兼顾以及置信度交叉验证

    实践总结:选择高质量评估模板经验总结,构建黄金数据集核心原则,满足应用生命周期不同阶段的评估需求

  • 评估架构:自动化落地的关键步骤

    搭建流程:评估运行时环境部署→Experiment 多版本并行配置→评估器综合设置,实现评估结果到调优动作转化路径

    避坑指南:如何解决“评估覆盖不充分”、“评估结果不可复现”、“批量评估耗时过长等待” 等问题

  • 闭环优化:嵌入全生命周期实践

    落地路径:将评估嵌入 “开发→测试→上线→运维” 的关键节点,基于效果度量机制设定 Agent 应用质量准入门槛的最佳实践

4. 案例分享:阿里云内部落地实践案例

5. 实践反思与未来探索

  • 演进:Multi-Agent 协同场景中,跨智能体链路追踪以及执行轨迹的观测实现

  • 思考:在长上下文多轮对话中,用户意图演化导致评估指标失效的应对思路

  • 探索:尝试 “基于业务特征自动推荐评估策略”,降低人工成本的自动化机制

您认为,这样的技术在实践过程中有哪些痛点?

  • 不同语言技术栈及 AI 框架(如 LangChain、LlamaIndex 等)快速演进,导致埋点适配成本高、数据格式碎片化

  • 全链路追踪中客户端与服务端实体缺乏统一语义元信息(如 session_id、user_id、Agent_id),难以有效关联

  • Agent 实现路径多样、依赖环境复杂,难以覆盖长尾用户意图等,高质量评估常面临冷启动困难与基准缺失痛点

演讲亮点

  • 全程基于核心业务场景的真实落地经验,复盘 “踩坑→解决→迭代” 的完整过程

  • 基于多个真实生产场景的迭代经验,总结出可复用的 Agent 观测以及评估实操流程

听众收获

  • 掌握构建面向 Agent 特性的可观测核心能力,从效果、性能、成本等维度建立生产级实践

  • 理解 Agent 效果评估的关键设计原则,具备从 0 到 1 构建可落地、可扩展评估落地踩坑经验

除此之外,本次大会还策划了Agentic Engineering多模态理解与生成的突破记忆觉醒:智能体记忆系统的范式重塑与产业落地具身智能与物理世界交互Agent Infra 架构设计AI 重塑数据生产与消费AI 原生基础设施AI 驱动的技术债治理小模型与领域适配模型大模型算力优化Agent 可观测性与评估工程AI for SRE等 20 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 100+资深专家在 QCon 北京站现场带来前沿技术洞察和一线实践经验。

更多详情可扫码或联系票务经理 18514549229 进行咨询。