格灵深瞳研发副总裁闫梓祯将在AICon北京分享构建高可信自动化企业Agent评测体系的实战方法论

6 月 27 日-6 月 28 日，AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践，邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家，深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。

格灵深瞳研发副总裁闫梓祯已确认出席并发表题为《构建高可信自动化企业Agent评测体系的实战方法展》的主题分享。当前企业级 Agent 评测面临两大断层：通用 Benchmark 脱离垂直场景业务目标，生成效果无法量化决策价值。闫梓祯在教育、金融、轨交运维等严肃场景中，探索出一套融合领域知识、多模态感知与决策链追溯的评测体系。本次分享将解析如何通过动态数据沙盒、决策链可解释性验证、业务指标映射模型，解决“高分低能”痛点，并推动 Agent 从对话能力向决策智能进化。

格灵深瞳研发副总裁闫梓祯，拥有十余年 AI 工程化经验，曾带领团队研发推理引擎、向量数据库以及数据与训练平台等核心基础设施。现聚焦于 AI Infra 方向，负责 AI 模型的训推优化与应用落地工作。他在本次会议的详细演讲内容如下：

演讲提纲
1. 企业 Agent 评测的难点：
数据真空：研发阶段无法提前获取真实数据
Agent 的效果没有统一的标准，依赖人的“感受”，难以衡量实际价值，长尾场景无法模拟
2. 现有评测机制的介绍和问题：
通用 benchmark 难以反映真实业务需求
“高分低能”
3. 自动化评测系统：
数据的模拟和生成
多维度指标的构建
迭代过程中评测的原则
4. 严肃场景实战案例：
结合业务 Agent 实践分享
您认为，这样的技术在实践过程中有哪些痛点？
严肃场景下，Agent 评测过程和结论仍然需要业务专家的 review，无法完全脱离人
您的演讲有哪些前沿亮点？
针对企业的 Agent 自动化评测的流程与方法
垂直领域评测的独特性：严肃场景约束：教育-体育中考/高铁检修/银行等场景对容错率要求极高，需结合传感器融合与时序推理能力验证。
决策智能的量化评估
从生成质量到决策价值
传统指标：关注响应相关性、流畅度
决策指标：动作执行闭环率（如 AI 教练纠正动作后学生体能达标率提升）、异常处理时效（轨交 Agent 故障响应缩短）
可解释性验证工具链：展示决策链追溯界面，证明评分结论如何关联到视频动作分割、传感器时序对齐等底层证据
低成本动态评测系统
业务指标映射：将“体育考试效率”转化为“单日考生吞吐量”“误判率”等可量化 Agent 指标
听众收益
了解 toB 场景下，Agent 构建和评测的难点
如何构建符合需求场景的评测集
如何在评测分数的指导下，迭代智能体的开发

除此之外，本次大会还策划了AI Agent 构建与多场景实践、多模态实践与应用、大模型助力研发的实战经验、AI 在业务运营中的深度落地、大模型时代的数据处理与分析、AI 变革下的工程师等 10 多个专题论坛，届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。

现在报名即可以享受 9 折优惠，单张门票立省 580 元，详情可扫码或联系票务经理 13269078023 咨询。

创作场景

格灵深瞳研发副总裁闫梓祯将在 AICon 北京分享构建高可信自动化企业 Agent 评测体系的实战方法论