写点什么

格灵深瞳研发副总裁闫梓祯将在 AICon 北京分享构建高可信自动化企业 Agent 评测体系的实战方法论

  • 2025-06-11
    北京
  • 本文字数:1228 字

    阅读完需:约 4 分钟

大小:674.09K时长:03:50
格灵深瞳研发副总裁闫梓祯将在AICon北京分享构建高可信自动化企业Agent评测体系的实战方法论

6 月 27 日-6 月 28 日,AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践,邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家,深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。


格灵深瞳研发副总裁闫梓祯已确认出席并发表题为《构建高可信自动化企业Agent评测体系的实战方法展》的主题分享。当前企业级 Agent 评测面临两大断层:通用 Benchmark 脱离垂直场景业务目标,生成效果无法量化决策价值。闫梓祯在教育、金融、轨交运维等严肃场景中,探索出一套融合领域知识、多模态感知与决策链追溯的评测体系。本次分享将解析如何通过动态数据沙盒、决策链可解释性验证、业务指标映射模型,解决“高分低能”痛点,并推动 Agent 从对话能力向决策智能进化。



格灵深瞳研发副总裁闫梓祯,拥有十余年 AI 工程化经验,曾带领团队研发推理引擎、向量数据库以及数据与训练平台等核心基础设施。现聚焦于 AI Infra 方向,负责 AI 模型的训推优化与应用落地工作。他在本次会议的详细演讲内容如下:


演讲提纲

1. 企业 Agent 评测的难点:

  • 数据真空:研发阶段无法提前获取真实数据

  • Agent 的效果没有统一的标准,依赖人的“感受”,难以衡量实际价值,长尾场景无法模拟

2. 现有评测机制的介绍和问题:

  • 通用 benchmark 难以反映真实业务需求

  • “高分低能”

3. 自动化评测系统:

  • 数据的模拟和生成

  • 多维度指标的构建

  • 迭代过程中评测的原则

4. 严肃场景实战案例:

  • 结合业务 Agent 实践分享


您认为,这样的技术在实践过程中有哪些痛点?

严肃场景下,Agent 评测过程和结论仍然需要业务专家的 review,无法完全脱离人


您的演讲有哪些前沿亮点?

针对企业的 Agent 自动化评测的流程与方法

  • 垂直领域评测的独特性:严肃场景约束:教育-体育中考/高铁检修/银行等场景对容错率要求极高,需结合传感器融合与时序推理能力验证。

  • 决策智能的量化评估

  • 从生成质量到决策价值

  • 传统指标:关注响应相关性、流畅度

  • 决策指标:动作执行闭环率(如 AI 教练纠正动作后学生体能达标率提升)、异常处理时效(轨交 Agent 故障响应缩短)

  • 可解释性验证工具链:展示决策链追溯界面,证明评分结论如何关联到视频动作分割、传感器时序对齐等底层证据

  • 低成本动态评测系统

  • 业务指标映射:将“体育考试效率”转化为“单日考生吞吐量”“误判率”等可量化 Agent 指标


听众收益

  • 了解 toB 场景下,Agent 构建和评测的难点

  • 如何构建符合需求场景的评测集

  • 如何在评测分数的指导下,迭代智能体的开发


除此之外,本次大会还策划了AI Agent 构建与多场景实践多模态实践与应用大模型助力研发的实战经验AI 在业务运营中的深度落地大模型时代的数据处理与分析AI 变革下的工程师等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-06-11 09:151

评论

发布
暂无评论

低代码赋能生物药企数字化

明道云

什么是Auto-GPT?如何使用、部署Auto-GPT?

炜娓道来程序人生

人工智能 AI ChatGPT

Spring中@NotEmpty、@NotBlank、@NotNull 区别和使用

Java你猿哥

Java spring Spring Boot string ssm

Springboot 一行代码实现文件上传 20个平台!少写代码到极致

Java你猿哥

Java spring Spring Boot ssm

腾讯Java大牛整理推荐的(Spring AOP/IOC思维导图源码笔记)

Java spring aop ioc

华为Atlas 200I DK A2开箱!

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 5 月 PK 榜

骚操作:使用无头浏览器模拟用户操作进行截图~

王中阳Go

Go 高效工作 自动化 无头浏览器 自动截图

OpenFeign 如何做到 "隔空取物" ?

Java你猿哥

Java Spring Cloud ssm netflix openfeign

OpenHarmony Docker移植实践

OpenHarmony开发者

OpenHarmony

用低代码开发平台高效打造仓储管理数字生态

力软低代码开发平台

阿里蚂蚁金服4面面经(已拿Offer)附答案!突如其来的意外之喜

Java你猿哥

Java 算法 ssm 并发 面经

Midjourney|文心一格prompt教程[Text Prompt(上篇)]:品牌log、App、徽章、插画、头像场景生成,各种风格选择:科技风、运动风

汀丶人工智能

人工智能 AI绘画 MidJourney 文生图 prompt learning

智聚北京!相约全球人力资源数智化峰会

用友BIP

人力资源

周家恩:GaussDB(for MySQL)云原生数据库技术演进和挑战

NineData

MySQL 数据库 GaussDB GaussDB(for MySQL) 华为自研数据库

宝武中南钢铁借助飞桨让钢筋超限监控有了“火眼金睛”

飞桨PaddlePaddle

百度飞桨 图像分割 PaddleSeg

企业级体验:未来体验管理的价值与趋势

博文视点Broadview

美团二面惜败,我的凉经复盘(附学习笔记+面试整理+进阶书籍)

Java你猿哥

MySQL redis Spring Boot 并发编程 JVm虚拟机

如何快速使用Redis可视化工具NineData?

数据库小组

数据库 Redis 可视化工具 Redis图形化工具 redis图形化界面 数据库可视化工具

开源赋能 普惠未来|TencentOS Tiny诚邀您参与2023开放原子全球开源峰会

开放原子开源基金会

开源赋能 普惠未来|百度寄语2023开放原子全球开源峰会

开放原子开源基金会

二面蚂蚁金服(交叉面),已拿Offer,Java岗定级阿里P6

Java你猿哥

Java ssm 并发 java面试 面经

AIGC背后的技术分析 | K均值聚类算法Python实现

TiAmo

Python AIGC K值算法

2023企业数智化财务创新峰会 · 成都站圆满举办!

用友BIP

智能会计 价值财务

eKuiper 源码解读:从一条 SQL 到流处理任务的旅程

Java你猿哥

Go golang sql ssm eKuiper

人工智能与大模型主题师资培训落地,飞桨持续赋能AI人才培养

飞桨PaddlePaddle

paddle 百度飞桨

实现园林梦想尽在GardenPlanner 激活~

真大的脸盆

Mac Mac 软件 园林设计

用友BIP新零售产品发布,与零售企业共创新未来

用友BIP

新零售 数字营销

三本菜鸟美团二面被源码暴锤,46天狂学Spring,终入阿里

Java你猿哥

面试 Spring Boot sprnig spring aop spring ioc

阿里云微服务引擎 MSE 全新升级,实用能力更普惠,最高降幅 75%

阿里巴巴云原生

阿里云 云原生 微服务引擎

格灵深瞳研发副总裁闫梓祯将在AICon北京分享构建高可信自动化企业Agent评测体系的实战方法论_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章