写点什么

格灵深瞳研发副总裁闫梓祯将在 AICon 北京分享构建高可信自动化企业 Agent 评测体系的实战方法论

  • 2025-06-11
    北京
  • 本文字数:1228 字

    阅读完需:约 4 分钟

大小:674.09K时长:03:50
格灵深瞳研发副总裁闫梓祯将在AICon北京分享构建高可信自动化企业Agent评测体系的实战方法论

6 月 27 日-6 月 28 日,AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践,邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家,深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。


格灵深瞳研发副总裁闫梓祯已确认出席并发表题为《构建高可信自动化企业Agent评测体系的实战方法展》的主题分享。当前企业级 Agent 评测面临两大断层:通用 Benchmark 脱离垂直场景业务目标,生成效果无法量化决策价值。闫梓祯在教育、金融、轨交运维等严肃场景中,探索出一套融合领域知识、多模态感知与决策链追溯的评测体系。本次分享将解析如何通过动态数据沙盒、决策链可解释性验证、业务指标映射模型,解决“高分低能”痛点,并推动 Agent 从对话能力向决策智能进化。



格灵深瞳研发副总裁闫梓祯,拥有十余年 AI 工程化经验,曾带领团队研发推理引擎、向量数据库以及数据与训练平台等核心基础设施。现聚焦于 AI Infra 方向,负责 AI 模型的训推优化与应用落地工作。他在本次会议的详细演讲内容如下:


演讲提纲

1. 企业 Agent 评测的难点:

  • 数据真空:研发阶段无法提前获取真实数据

  • Agent 的效果没有统一的标准,依赖人的“感受”,难以衡量实际价值,长尾场景无法模拟

2. 现有评测机制的介绍和问题:

  • 通用 benchmark 难以反映真实业务需求

  • “高分低能”

3. 自动化评测系统:

  • 数据的模拟和生成

  • 多维度指标的构建

  • 迭代过程中评测的原则

4. 严肃场景实战案例:

  • 结合业务 Agent 实践分享


您认为,这样的技术在实践过程中有哪些痛点?

严肃场景下,Agent 评测过程和结论仍然需要业务专家的 review,无法完全脱离人


您的演讲有哪些前沿亮点?

针对企业的 Agent 自动化评测的流程与方法

  • 垂直领域评测的独特性:严肃场景约束:教育-体育中考/高铁检修/银行等场景对容错率要求极高,需结合传感器融合与时序推理能力验证。

  • 决策智能的量化评估

  • 从生成质量到决策价值

  • 传统指标:关注响应相关性、流畅度

  • 决策指标:动作执行闭环率(如 AI 教练纠正动作后学生体能达标率提升)、异常处理时效(轨交 Agent 故障响应缩短)

  • 可解释性验证工具链:展示决策链追溯界面,证明评分结论如何关联到视频动作分割、传感器时序对齐等底层证据

  • 低成本动态评测系统

  • 业务指标映射:将“体育考试效率”转化为“单日考生吞吐量”“误判率”等可量化 Agent 指标


听众收益

  • 了解 toB 场景下,Agent 构建和评测的难点

  • 如何构建符合需求场景的评测集

  • 如何在评测分数的指导下,迭代智能体的开发


除此之外,本次大会还策划了AI Agent 构建与多场景实践多模态实践与应用大模型助力研发的实战经验AI 在业务运营中的深度落地大模型时代的数据处理与分析AI 变革下的工程师等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-06-11 09:153895

评论

发布
暂无评论

组织赋能,统一企业门户实现高效化、移动化协作

BeeWorks

IM开源项目OpenIM部署文档-从准备工作到nginx配置

Geek_1ef48b

web前端面试技巧-如何自我介绍?如何应对hr?

肥晨

前端面试 面试技巧 11月月更

Pytorch实现经典模型AlexNet模型

Studying_swz

深度学习 11月月更

简单组合逻辑电路

芯动大师

Verilog LED数码管 11月月更

更快更稳更易用: Flink 自适应批处理能力演进

Apache Flink

大数据 flink

数据分析er看过来,五款工具有你需要的

葡萄城技术团队

数据分析 前端 数据可视化

OpenSergo 流量路由:从场景到标准化的探索

阿里巴巴云原生

阿里云 微服务 云原生

网络安全之命令执行漏洞复现

网络安全学海

黑客 网络安全 信息安全 渗透测试 漏洞挖掘

裁员潮血洗硅谷是坏事还是好事

HoneyMoose

【LeetCode】数组元素积的符号Java题解

Albert

算法 LeetCode 11月月更

有趣的 Go HttpClient 超时机制

捉虫大师

Go HTTP 11月月更

IM即时通讯私有化部署,WorkPlus助力企业构建安全办公环境

BeeWorks

漫画|微信群聊的程序员们

肥晨

程序员生活 11月月更 程序员漫画

官宣|Apache Flink 1.16 发布公告

Apache Flink

Baklib|信息管理和知识管理是如何影响你的业务的?

Baklib

知识管理

Baklib|SaaS产品,实现企业流程数字化

Baklib

SaaS

实践分享:30分钟在电脑端运行小程序

FN0

桌面应用 桌面应用开发

Docker Compose快速部署多容器服务实战

闫同学

Docker 容器 11月月更

JS in CSS:一键支持响应式布局

iofod jude

前端 后端 低代码 iofod

【愚公系列】2022年11月 微信小程序-app.json配置属性之requiredBackgroundModes

愚公搬代码

11月月更

2022-11-15:这里有 n 个航班,它们分别从 1 到 n 进行编号。 有一份航班预订表 bookings , 表中第 i 条预订记录 bookings[i] = [firsti, lasti,

福大大架构师每日一题

算法 rust 福大大

算法题学习---两个链表的第一个公共结点

桑榆

算法题 11月月更

数据指标体系搭建步骤

穿过生命散发芬芳

11月月更 数据指标体系

当前API安全产品现状

阿泽🧸

API 11月月更

Go易错集锦、优秀开源包、实战案例合集

Go学堂

Go 内容合集 签约计划第二季 技术专题合集

Baklib|我的企业是不是需要一个维基页面呢?

Baklib

维基

如何在SpringBoot项目中,实现记录用户登录的IP地址及归属地信息?

wljslmz

日志 IP springboot 登录 11月月更

基于Jmeter的百万级tps性能测试实践

环信

Jmeter 性能测试

分布式系统设计之常见的负载均衡算法

闫同学

负载均衡 11月月更 分布式系统设计

教学:制作 GitHub 同步近期博客卡片

小鑫同学

前端 Github' 11月月更

格灵深瞳研发副总裁闫梓祯将在AICon北京分享构建高可信自动化企业Agent评测体系的实战方法论_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章