限时领|《AI 百问百答》专栏课+实体书(包邮)! 了解详情
写点什么

格灵深瞳研发副总裁闫梓祯将在 AICon 北京分享构建高可信自动化企业 Agent 评测体系的实战方法论

  • 2025-06-11
    北京
  • 本文字数:1228 字

    阅读完需:约 4 分钟

大小:674.09K时长:03:50
格灵深瞳研发副总裁闫梓祯将在AICon北京分享构建高可信自动化企业Agent评测体系的实战方法论

6 月 27 日-6 月 28 日,AICon 全球人工智能开发与应用大会北京站即将拉开帷幕。本次大会将汇聚 AI 前沿技术与落地实践,邀请来自腾讯、阿里、百度、字节跳动等头部大厂以及智谱、硅基流动、智象未来、声智科技等 AI 企业的 50+资深专家,深度探讨 AI Agent、多模态应用、推理性能优化以及 AI 在软件研发、数据分析、业务运营等场景的具体落地实践。


格灵深瞳研发副总裁闫梓祯已确认出席并发表题为《构建高可信自动化企业Agent评测体系的实战方法展》的主题分享。当前企业级 Agent 评测面临两大断层:通用 Benchmark 脱离垂直场景业务目标,生成效果无法量化决策价值。闫梓祯在教育、金融、轨交运维等严肃场景中,探索出一套融合领域知识、多模态感知与决策链追溯的评测体系。本次分享将解析如何通过动态数据沙盒、决策链可解释性验证、业务指标映射模型,解决“高分低能”痛点,并推动 Agent 从对话能力向决策智能进化。



格灵深瞳研发副总裁闫梓祯,拥有十余年 AI 工程化经验,曾带领团队研发推理引擎、向量数据库以及数据与训练平台等核心基础设施。现聚焦于 AI Infra 方向,负责 AI 模型的训推优化与应用落地工作。他在本次会议的详细演讲内容如下:


演讲提纲

1. 企业 Agent 评测的难点:

  • 数据真空:研发阶段无法提前获取真实数据

  • Agent 的效果没有统一的标准,依赖人的“感受”,难以衡量实际价值,长尾场景无法模拟

2. 现有评测机制的介绍和问题:

  • 通用 benchmark 难以反映真实业务需求

  • “高分低能”

3. 自动化评测系统:

  • 数据的模拟和生成

  • 多维度指标的构建

  • 迭代过程中评测的原则

4. 严肃场景实战案例:

  • 结合业务 Agent 实践分享


您认为,这样的技术在实践过程中有哪些痛点?

严肃场景下,Agent 评测过程和结论仍然需要业务专家的 review,无法完全脱离人


您的演讲有哪些前沿亮点?

针对企业的 Agent 自动化评测的流程与方法

  • 垂直领域评测的独特性:严肃场景约束:教育-体育中考/高铁检修/银行等场景对容错率要求极高,需结合传感器融合与时序推理能力验证。

  • 决策智能的量化评估

  • 从生成质量到决策价值

  • 传统指标:关注响应相关性、流畅度

  • 决策指标:动作执行闭环率(如 AI 教练纠正动作后学生体能达标率提升)、异常处理时效(轨交 Agent 故障响应缩短)

  • 可解释性验证工具链:展示决策链追溯界面,证明评分结论如何关联到视频动作分割、传感器时序对齐等底层证据

  • 低成本动态评测系统

  • 业务指标映射:将“体育考试效率”转化为“单日考生吞吐量”“误判率”等可量化 Agent 指标


听众收益

  • 了解 toB 场景下,Agent 构建和评测的难点

  • 如何构建符合需求场景的评测集

  • 如何在评测分数的指导下,迭代智能体的开发


除此之外,本次大会还策划了AI Agent 构建与多场景实践多模态实践与应用大模型助力研发的实战经验AI 在业务运营中的深度落地大模型时代的数据处理与分析AI 变革下的工程师等 10 多个专题论坛,届时将有来自不同行业、不同领域、不同企业的 50+资深专家在 AICon 北京站现场带来前沿技术洞察和一线实践经验。


现在报名即可以享受 9 折优惠,单张门票立省 580 元,详情可扫码或联系票务经理 13269078023 咨询。



2025-06-11 09:153741

评论

发布
暂无评论

网站结构规范对于独立站的重要性

九凌网络

App自动化测试中,如何更好地处理弹窗?

霍格沃兹测试开发学社

面试官:为什么忘记密码要重置而不是告诉你原密码?

不在线第一只蜗牛

Java 程序员 面试 密码管理

企业IT部门在集成类项目中扮演的角色

RestCloud

数字化转型 IT ipaas

云手机助力舆情监测,智慧引领信息时代

Ogcloud

云手机 海外云手机 舆情监测 群控 云手机群控

以NFT起头的Berachain 有什么魔力?

币离海

区块链 NFT Berachain

Redis 容器化,是不是个“软柿子”?

小猿姐

redis 容器化

通过独立网站的视觉设计策略优化进行品牌推广

九凌网络

一款国产的开发辅助AI插件!

江南一点雨

借助jd.item_get API优化商品名称以提升用户购买意愿

技术冰糖葫芦

api 货币化 API 测试 API 策略

王海峰:百度500万AI人才培养目标已提前达成

飞桨PaddlePaddle

人工智能 百度 AI BAIDU 文心一言

软件测试学习笔记丨业务架构分析思路

测试人

软件测试

你的数据库用对索引了吗?一文揭秘PolarDB XPlan索引选择

阿里云瑶池数据库

数据库 阿里云 polarDB 分布式,

软件测试基础概念与原则

测吧(北京)科技有限公司

测试

比特币L2项目主网密集上线:新业态背后的挑战与机遇

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

解决苹果审核4.3问题的有效策略:尝试混淆或重新上架?用这招居然成功上架AppStore了!

架构设计|基于 raft-listener 实现实时同步的主备集群

NebulaGraph

数据库

多IP美国服务器:提升在线业务灵活性与安全性的最佳选择

一只扑棱蛾子

多IP服务器

百度赵世奇:人人都是「超级个体」时代来临

极客天地

MySQL 开源到商业(一):Sun 公司收购了 MySQL AB

小猿姐

MySQL 开源

Doris Manager 24.0 版本正式发布!

SelectDB

数据库 大数据 数据仓库 运维管理 集群管理

从零到一:如何使用亮数据代理快速收集训练数据打造自己的AIGC大模型

热爱编程的小白白

活动报名 | 如何进行全增量一体的异构数据库实时同步

tapdata

oracle cdc 数据总线

云手机养号与传统的养号模式有何不同

Ogcloud

云手机 海外云手机 云手机海外版 国外云手机 社媒运营

格灵深瞳研发副总裁闫梓祯将在AICon北京分享构建高可信自动化企业Agent评测体系的实战方法论_AI&大模型_AICon 全球人工智能开发与应用大会_InfoQ精选文章