写点什么

格灵深瞳研发副总裁闫梓祯将在 AICon 北京分享构建高可信自动化企业 Agent 评测体系的实战方法论

  • 2025-06-11
    北京
  • 本文字数:1228 字

    阅读完需:约 4 分钟

大小:674.09K时长:03:50
格灵深瞳研发副总裁闫梓祯将在AICon北京分享构建高可信自动化企业Agent评测体系的实战方法论

6 月 27 日-6 月 28 日,AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践,邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家,深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。


格灵深瞳研发副总裁闫梓祯已确认出席并发表题为《构建高可信自动化企业Agent评测体系的实战方法展》的主题分享。当前企业级 Agent 评测面临两大断层:通用 Benchmark 脱离垂直场景业务目标,生成效果无法量化决策价值。闫梓祯在教育、金融、轨交运维等严肃场景中,探索出一套融合领域知识、多模态感知与决策链追溯的评测体系。本次分享将解析如何通过动态数据沙盒、决策链可解释性验证、业务指标映射模型,解决“高分低能”痛点,并推动 Agent 从对话能力向决策智能进化。



格灵深瞳研发副总裁闫梓祯,拥有十余年 AI 工程化经验,曾带领团队研发推理引擎、向量数据库以及数据与训练平台等核心基础设施。现聚焦于 AI Infra 方向,负责 AI 模型的训推优化与应用落地工作。他在本次会议的详细演讲内容如下:


演讲提纲

1. 企业 Agent 评测的难点:

  • 数据真空:研发阶段无法提前获取真实数据

  • Agent 的效果没有统一的标准,依赖人的“感受”,难以衡量实际价值,长尾场景无法模拟

2. 现有评测机制的介绍和问题:

  • 通用 benchmark 难以反映真实业务需求

  • “高分低能”

3. 自动化评测系统:

  • 数据的模拟和生成

  • 多维度指标的构建

  • 迭代过程中评测的原则

4. 严肃场景实战案例:

  • 结合业务 Agent 实践分享


您认为,这样的技术在实践过程中有哪些痛点?

严肃场景下,Agent 评测过程和结论仍然需要业务专家的 review,无法完全脱离人


您的演讲有哪些前沿亮点?

针对企业的 Agent 自动化评测的流程与方法

  • 垂直领域评测的独特性:严肃场景约束:教育-体育中考/高铁检修/银行等场景对容错率要求极高,需结合传感器融合与时序推理能力验证。

  • 决策智能的量化评估

  • 从生成质量到决策价值

  • 传统指标:关注响应相关性、流畅度

  • 决策指标:动作执行闭环率(如 AI 教练纠正动作后学生体能达标率提升)、异常处理时效(轨交 Agent 故障响应缩短)

  • 可解释性验证工具链:展示决策链追溯界面,证明评分结论如何关联到视频动作分割、传感器时序对齐等底层证据

  • 低成本动态评测系统

  • 业务指标映射:将“体育考试效率”转化为“单日考生吞吐量”“误判率”等可量化 Agent 指标


听众收益

  • 了解 toB 场景下,Agent 构建和评测的难点

  • 如何构建符合需求场景的评测集

  • 如何在评测分数的指导下,迭代智能体的开发


除此之外,本次大会还策划了AI Agent 构建与多场景实践多模态实践与应用大模型助力研发的实战经验AI 在业务运营中的深度落地大模型时代的数据处理与分析AI 变革下的工程师等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-06-11 09:153761

评论

发布
暂无评论

Rust编程语言到底是不是炒作的噱头?

伤感汤姆布利柏

【邀请函】相约CommunityOverCode Asia 2024,共探Flink、Paimon、Celeborn开源新境界!

Apache Flink

大数据 flink Celeborn paimon

市场表现低迷,本周期的山寨币还有投资机会吗?

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

一文让你简单了解教育行业为什么需要堡垒机,保护什么?

行云管家

网络安全 教育 堡垒机

2024年成都等级保护测评机构名单看这里!

行云管家

网络安全 成都 等保 堡垒机

职场<火焰杯>测试开发大赛决赛即将开始!

测吧(北京)科技有限公司

测试

Renderless 思想正在影响前端开发

OpenTiny社区

开源 组件库 OpenTiny TinyVue

使用 Makefile 管理和部署 Go 项目

左诗右码

Go

职场<火焰杯>测试开发大赛决赛即将开始!

测试人

软件测试

MES系统生产计划的实施流程

万界星空科技

生产管理系统 mes 万界星空科技 生产计划

“英特尔x希沃:40分钟高效课堂“诞生记”

E科讯

【论文速读】|FuzzAug:探索模糊测试作为神经网络测试生成的数据增强

云起无垠

生产管理MES系统在灯具照明行业怎么数字化转型

万界星空科技

mes 万界星空科技 灯具行业 灯具 照明

EMQX 与 MQTT: AI 大模型时代的分布式数据中枢

EMQ映云科技

mqtt mqtt broker

“自我实现的预言”摩尔定律,如何继续引领创新

E科讯

用flutter实现五种寻路算法的可视化效果,快来看看!

编程的平行世界

flutter 算法

一文搞懂到底什么是 AQS

不在线第一只蜗牛

Java JVM

格灵深瞳研发副总裁闫梓祯将在AICon北京分享构建高可信自动化企业Agent评测体系的实战方法论_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章