写点什么

格灵深瞳研发副总裁闫梓祯将在 AICon 北京分享构建高可信自动化企业 Agent 评测体系的实战方法论

  • 2025-06-11
    北京
  • 本文字数:1228 字

    阅读完需:约 4 分钟

大小:674.09K时长:03:50
格灵深瞳研发副总裁闫梓祯将在AICon北京分享构建高可信自动化企业Agent评测体系的实战方法论

6 月 27 日-6 月 28 日,AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践,邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家,深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。


格灵深瞳研发副总裁闫梓祯已确认出席并发表题为《构建高可信自动化企业Agent评测体系的实战方法展》的主题分享。当前企业级 Agent 评测面临两大断层:通用 Benchmark 脱离垂直场景业务目标,生成效果无法量化决策价值。闫梓祯在教育、金融、轨交运维等严肃场景中,探索出一套融合领域知识、多模态感知与决策链追溯的评测体系。本次分享将解析如何通过动态数据沙盒、决策链可解释性验证、业务指标映射模型,解决“高分低能”痛点,并推动 Agent 从对话能力向决策智能进化。



格灵深瞳研发副总裁闫梓祯,拥有十余年 AI 工程化经验,曾带领团队研发推理引擎、向量数据库以及数据与训练平台等核心基础设施。现聚焦于 AI Infra 方向,负责 AI 模型的训推优化与应用落地工作。他在本次会议的详细演讲内容如下:


演讲提纲

1. 企业 Agent 评测的难点:

  • 数据真空:研发阶段无法提前获取真实数据

  • Agent 的效果没有统一的标准,依赖人的“感受”,难以衡量实际价值,长尾场景无法模拟

2. 现有评测机制的介绍和问题:

  • 通用 benchmark 难以反映真实业务需求

  • “高分低能”

3. 自动化评测系统:

  • 数据的模拟和生成

  • 多维度指标的构建

  • 迭代过程中评测的原则

4. 严肃场景实战案例:

  • 结合业务 Agent 实践分享


您认为,这样的技术在实践过程中有哪些痛点?

严肃场景下,Agent 评测过程和结论仍然需要业务专家的 review,无法完全脱离人


您的演讲有哪些前沿亮点?

针对企业的 Agent 自动化评测的流程与方法

  • 垂直领域评测的独特性:严肃场景约束:教育-体育中考/高铁检修/银行等场景对容错率要求极高,需结合传感器融合与时序推理能力验证。

  • 决策智能的量化评估

  • 从生成质量到决策价值

  • 传统指标:关注响应相关性、流畅度

  • 决策指标:动作执行闭环率(如 AI 教练纠正动作后学生体能达标率提升)、异常处理时效(轨交 Agent 故障响应缩短)

  • 可解释性验证工具链:展示决策链追溯界面,证明评分结论如何关联到视频动作分割、传感器时序对齐等底层证据

  • 低成本动态评测系统

  • 业务指标映射:将“体育考试效率”转化为“单日考生吞吐量”“误判率”等可量化 Agent 指标


听众收益

  • 了解 toB 场景下,Agent 构建和评测的难点

  • 如何构建符合需求场景的评测集

  • 如何在评测分数的指导下,迭代智能体的开发


除此之外,本次大会还策划了AI Agent 构建与多场景实践多模态实践与应用大模型助力研发的实战经验AI 在业务运营中的深度落地大模型时代的数据处理与分析AI 变革下的工程师等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-06-11 09:153822

评论

发布
暂无评论

新技术越来越多,作为程序员,我们应该怎么规划职业生涯? | 社区征文

wljslmz

三周年征文

用户分享 | Dockquery,一个国产数据库客户端的初体验

BinTools图尔兹

用户体验 国产数据库工具

专访惠众科技|元宇宙应用如何借助3DCAT实时云渲染实现流畅大并发呈现?

3DCAT实时渲染

元宇宙 实时渲染云

浅谈如何做好知乎内容营销:需要注意哪些细节

石头IT视角

2023-05-10:给你一棵以 root 为根的二叉树和一个 head 为第一个节点的链表 如果在二叉树中,存在一条一直向下的路径 且每个点的数值恰好一一对应以 head 为首的链表中每个节点的值,

福大大架构师每日一题

Go 算法 rust 福大大

体验MMGPT本地部署(上)

IT蜗壳-Tango

三周年连更

Python自动化办公神器!1行代码实现文件转PDF,支持Word、Excel、PPT、TXT格式

程序员晚枫

Python PDF

HTTPS 的加密过程及其工作原理

wljslmz

https 三周年连更

云原生应用交付流程安全规范

穿过生命散发芬芳

安全规范 三周年连更

AI都会写脚本了,传统的运维工程师会失业吗? | 社区征文

wljslmz

AI 运维工程师 三周年征文

DxO PureRAW轻松获取纯净无瑕疵raw照片~

真大的脸盆

Mac 图像处理 Mac 软件 Raw图像处理软件 图像编辑工具

并发编程-ReentrantLook底层设计

Java你猿哥

Java ssm 重入锁 lock锁 底层实现原理

理解并实现自动导入(Auto Import)功能的原理

Lee Chen

JavaScript

中国网约车领域月度观察2023年04月

易观分析

网约车 出行服务

总有AI想害'朕' 失业,我们该何去何从| 社区征文

穿过生命散发芬芳

ChatGPT 三周年征文

Java反射详解

timerring

Java

IT知识百科:什么是下一代防火墙和IPS?

wljslmz

防火墙 三周年连更 入侵防御系统

C++模板和泛型编程详解

小万哥

c++ 程序员 面试 后端 开发

sysMaster: 全新1号进程实现方案,秒级自愈,保障系统全天在线

openEuler

Linux rust 操作系统 openEuler init

硬核Prompt赏析:HuggingGPT告诉你Prompt可以有多“工程”

无人之路

ChatGPT Prompt

盘古云课堂加入 PolarDB 开源数据库社区

阿里云数据库开源

polarDB PolarDB-X PolarDB-PG PolarDB for PostgreSQL 阿里云瑶池数据库

腾讯云和ScaleFlux联合推出可计算存储与大容量QLC NAND解决方案

ScaleFlux

腾讯云 数据中心 降本增效 企业级SSD SSD寿命

挑战与机遇,全面预算管理的执行计划

智达方通

Flink中的时间及窗口类型

阿泽🧸

flink 三周年连更

在SDN技术盛行的时代,网络工程师需要不断学习新技术跟上时代的步伐 | 社区征文

wljslmz

sdn 三周年征文

格灵深瞳研发副总裁闫梓祯将在AICon北京分享构建高可信自动化企业Agent评测体系的实战方法论_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章