10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

Salesforce 最新研究:LLM 智能体 CRM 测试成功率低至 35%,保密意识还低,企业敢用吗?  

  • 2025-06-17
    北京
  • 本文字数:761 字

    阅读完需:约 2 分钟

大小:379.73K时长:02:09
Salesforce最新研究:LLM 智能体 CRM 测试成功率低至 35%,保密意识还低,企业敢用吗?   

整理 | 华卫

 

学术界开发的一项新基准测试显示,基于大型语言模型(LLM)的 AI 智能体在标准客户关系管理(CRM)测试中表现欠佳,且未能理解客户信息保密的必要性。  

 

由 Salesforce AI 研究员黄 Kung-Hsiang 领导的团队通过依赖合成数据的新基准测试表明,LLM 智能体在无需后续操作或额外信息的单步任务中,成功率约为 58%。而使用基准工具 CRMArena-Pro 的测试进一步显示,当任务需要多步骤完成时,LLM 智能体的成功率骤降至 35%。  

 

另一项值得关注的问题在于 LLM 智能体对机密信息的处理。上月末发表的一篇论文指出:“智能体的保密意识较低,尽管可通过针对性提示改善,但往往会对任务执行产生负面影响。”

 

Salesforce AI 研究团队认为,现有基准测试未能严格衡量 AI 智能体的能力或局限,且在很大程度上忽视了对其识别敏感信息及遵守数据处理规范能力的评估。  

 

该研究团队的 CRMArena-Pro 工具通过输入真实合成数据的管道来填充 Salesforce 组织,构建沙盒环境。智能体接收用户查询后,需决定是调用 API 接口,还是回复用户以获取更多信息或直接提供答案。  

 

论文提到:“这些发现表明,当前 LLM 的能力与现实企业场景的多维度需求之间存在显著差距。”这一结论可能令 LLM 驱动的 AI 智能体的开发者和用户均感担忧。Salesforce 联合创始人兼首席执行官马克·贝尼奥夫(Marc Benioff)去年曾向投资者表示,AI 智能体对这家 SaaS CRM 供应商而言是“高利润率机遇”,因为客户通过使用 AI 智能体提升员工效率,企业可从中分享收益。  

 

此外,英国政府称将通过数字化和效率提升计划,目标在 2029 年前节省 138 亿英镑(187 亿美元),这一计划部分依赖 AI 智能体的应用。  

 

尽管 AI 智能体可能颇具价值,但各组织在验证其实际效益前,仍需谨慎看待对其带来的收益预期。

 

参考链接:

https://www.theregister.com/2025/06/16/salesforce_llm_agents_benchmark/

2025-06-17 10:433629

评论

发布
暂无评论

Hanoi 塔问题(Java实现)

若尘

数据结构 java编程 6月日更

普通二本,吃透这份阿里高级专家的《Java面试手册21版》成功拿下腾讯offer

Java架构师迁哥

老同学突然升到了阿里P7,只因偷偷掌握了JVM的奥秘?

Java架构师迁哥

博客

vincentjia

数仓发生数据倾斜不要慌,教你轻松获取表倾斜率

华为云开发者联盟

GaussDB MPP GaussDB(DWS) 数据倾斜 并行架构

java中的NIO和IO到底是什么区别?20个问题告诉你答案

华为云开发者联盟

Java io nio buffer channel

花了三个小时把一份GitHub上标星115k的《Java超全进阶教程》整理成了PDF文档。

Java架构之路

Java 程序员 架构 面试 编程语言

解读革命性容器集群CCE Turbo:计算、网络、调度全方位加速

华为云开发者联盟

容器 华为云 CCE Turbo 集群服务器

带你遨游银河系的十种分布式数据库

悟空聊架构

数据库 分布式 分布式数据库 6月日更

一文读懂开源项目 OpenHarmony2.0

科技热闻

为什么开发5年的同事,还在学习23种设计模式?是他太菜?

Java架构师迁哥

【译】JavaScript 代码整洁之道-重构篇

KooFE

JavaScript 大前端 代码重构 6月日更 整洁代码

Mybatis缓存机制详解

北游学Java

Java mybatis

干货:ANR日志分析全面解析

vivo互联网技术

android 堆栈 日志分析 anr

@成都的Coder

蚂蚁集团移动开发平台 mPaaS

flutter 移动开发 mPaaS

阿里都会问些什么?4面阿里余额宝Java高级技术岗

Java架构师迁哥

双非本科逆袭记,阿里技术四面+交叉面+HR面,成功拿到offer

Java架构师迁哥

如何在 Electron 上实现 IM SDK 聊天消息全文检索

网易云信

全文检索 Electron IM

代码写的烂才是原罪?字节三面+微信四面+PayPal四面,大厂面经分享

Java 程序员 架构 面试

5.7w字?GitHub标星120K的Java面试知识点总结,真就物超所值了

Java 编程 程序员 面试 计算机

Linux Shell 自动交互人机交互的 3 种方法

学神来啦

Linux 运维 Shell 虚拟机 linux运维

2021版最新!字节跳动3面+腾讯6面一次过,谈谈我的大厂面经

Java架构之路

Java 程序员 架构 面试 编程语言

入职美团定级P7,总结2021年最新180道高级岗面试题及答案

Java架构师迁哥

京东T8Java架构师呕心沥血总结整理的《15w字的Java面试手册》免费开放分享给大家复习。

Java架构之路

Java 程序员 架构 面试 编程语言

看Kunpeng BoostKit 使能套件如何实现大数据场景倍级性能提升

华为云开发者联盟

大数据 开源 鲲鹏 鲲鹏计算 Kunpeng BoostKit

AI缘起——达特茅斯会议

行者AI

人工智能

揭秘Spring家族之——AOP和IOC

Java架构师迁哥

网络攻防学习笔记 Day39

穿过生命散发芬芳

网络攻防 6月日更

学历不够,技术来凑,8年开发经验,逆袭拿到阿里P7岗

Java架构师迁哥

每日优鲜:AI 技术驱动下的社区新零售

蚂蚁集团移动开发平台 mPaaS

人工智能 算法 图像识别 codehub

从零开始学习3D可视化之坐标系

ThingJS数字孪生引擎

物联网 可视化 数字时代 3D模型 3D可视化

Salesforce最新研究:LLM 智能体 CRM 测试成功率低至 35%,保密意识还低,企业敢用吗?   _AI&大模型_华卫_InfoQ精选文章