
6 月 27 日-6 月 28 日,AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践,邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家,深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。
格灵深瞳研发副总裁闫梓祯已确认出席并发表题为《构建高可信自动化企业Agent评测体系的实战方法展》的主题分享。当前企业级 Agent 评测面临两大断层:通用 Benchmark 脱离垂直场景业务目标,生成效果无法量化决策价值。闫梓祯在教育、金融、轨交运维等严肃场景中,探索出一套融合领域知识、多模态感知与决策链追溯的评测体系。本次分享将解析如何通过动态数据沙盒、决策链可解释性验证、业务指标映射模型,解决“高分低能”痛点,并推动 Agent 从对话能力向决策智能进化。

格灵深瞳研发副总裁闫梓祯,拥有十余年 AI 工程化经验,曾带领团队研发推理引擎、向量数据库以及数据与训练平台等核心基础设施。现聚焦于 AI Infra 方向,负责 AI 模型的训推优化与应用落地工作。他在本次会议的详细演讲内容如下:
演讲提纲
1. 企业 Agent 评测的难点:
数据真空:研发阶段无法提前获取真实数据
Agent 的效果没有统一的标准,依赖人的“感受”,难以衡量实际价值,长尾场景无法模拟
2. 现有评测机制的介绍和问题:
通用 benchmark 难以反映真实业务需求
“高分低能”
3. 自动化评测系统:
数据的模拟和生成
多维度指标的构建
迭代过程中评测的原则
4. 严肃场景实战案例:
结合业务 Agent 实践分享
您认为,这样的技术在实践过程中有哪些痛点?
严肃场景下,Agent 评测过程和结论仍然需要业务专家的 review,无法完全脱离人
您的演讲有哪些前沿亮点?
针对企业的 Agent 自动化评测的流程与方法
垂直领域评测的独特性:严肃场景约束:教育-体育中考/高铁检修/银行等场景对容错率要求极高,需结合传感器融合与时序推理能力验证。
决策智能的量化评估
从生成质量到决策价值
传统指标:关注响应相关性、流畅度
决策指标:动作执行闭环率(如 AI 教练纠正动作后学生体能达标率提升)、异常处理时效(轨交 Agent 故障响应缩短)
可解释性验证工具链:展示决策链追溯界面,证明评分结论如何关联到视频动作分割、传感器时序对齐等底层证据
低成本动态评测系统
业务指标映射:将“体育考试效率”转化为“单日考生吞吐量”“误判率”等可量化 Agent 指标
听众收益
了解 toB 场景下,Agent 构建和评测的难点
如何构建符合需求场景的评测集
如何在评测分数的指导下,迭代智能体的开发
除此之外,本次大会还策划了AI Agent 构建与多场景实践、多模态实践与应用、大模型助力研发的实战经验、AI 在业务运营中的深度落地、大模型时代的数据处理与分析、AI 变革下的工程师等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。
现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。

评论