2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

Salesforce 最新研究:LLM 智能体 CRM 测试成功率低至 35%,保密意识还低,企业敢用吗?  

  • 2025-06-17
    北京
  • 本文字数:761 字

    阅读完需:约 2 分钟

大小:379.73K时长:02:09
Salesforce最新研究:LLM 智能体 CRM 测试成功率低至 35%,保密意识还低,企业敢用吗?   

整理 | 华卫

 

学术界开发的一项新基准测试显示,基于大型语言模型(LLM)的 AI 智能体在标准客户关系管理(CRM)测试中表现欠佳,且未能理解客户信息保密的必要性。  

 

由 Salesforce AI 研究员黄 Kung-Hsiang 领导的团队通过依赖合成数据的新基准测试表明,LLM 智能体在无需后续操作或额外信息的单步任务中,成功率约为 58%。而使用基准工具 CRMArena-Pro 的测试进一步显示,当任务需要多步骤完成时,LLM 智能体的成功率骤降至 35%。  

 

另一项值得关注的问题在于 LLM 智能体对机密信息的处理。上月末发表的一篇论文指出:“智能体的保密意识较低,尽管可通过针对性提示改善,但往往会对任务执行产生负面影响。”

 

Salesforce AI 研究团队认为,现有基准测试未能严格衡量 AI 智能体的能力或局限,且在很大程度上忽视了对其识别敏感信息及遵守数据处理规范能力的评估。  

 

该研究团队的 CRMArena-Pro 工具通过输入真实合成数据的管道来填充 Salesforce 组织,构建沙盒环境。智能体接收用户查询后,需决定是调用 API 接口,还是回复用户以获取更多信息或直接提供答案。  

 

论文提到:“这些发现表明,当前 LLM 的能力与现实企业场景的多维度需求之间存在显著差距。”这一结论可能令 LLM 驱动的 AI 智能体的开发者和用户均感担忧。Salesforce 联合创始人兼首席执行官马克·贝尼奥夫(Marc Benioff)去年曾向投资者表示,AI 智能体对这家 SaaS CRM 供应商而言是“高利润率机遇”,因为客户通过使用 AI 智能体提升员工效率,企业可从中分享收益。  

 

此外,英国政府称将通过数字化和效率提升计划,目标在 2029 年前节省 138 亿英镑(187 亿美元),这一计划部分依赖 AI 智能体的应用。  

 

尽管 AI 智能体可能颇具价值,但各组织在验证其实际效益前,仍需谨慎看待对其带来的收益预期。

 

参考链接:

https://www.theregister.com/2025/06/16/salesforce_llm_agents_benchmark/

2025-06-17 10:433

评论

发布
暂无评论

Smart Finance 热启动创世开启,参与质押瓜分SMART资产

鳄鱼视界

京东前端经典面试题整理

loveX001

JavaScript

前端二面经典react面试题

beifeng1996

React

问:你是如何进行react状态管理方案选择的?

beifeng1996

React

架构7作业

梁山伯

热启动预示生态起航的Smart Finance,与深度赋能的SMART通证

股市老人

前端经典面试题(有答案)

loveX001

JavaScript

日日顺供应链|想要看清供应链发展趋势,先回答这三个问题!

联营汇聚

能取代90%人工作的ChatGPT到底牛在哪里

慕枫技术笔记

人工智能 后端 ChatGPT

问:React的useState和setState到底是同步还是异步呢?

beifeng1996

React

京东前端react面试题及答案

beifeng1996

React

2023-02-13:力扣数据中心有 n 台服务器,分别按从 0 到 n-1 的方式进行了编号 它们之间以「服务器到服务器」点对点的形式相互连接组成了一个内部集群 其中连接 connections 是

福大大架构师每日一题

算法 rust 福大大

从URL输入到页面展现到底发生什么?

loveX001

JavaScript

vivo官网App模块化开发方案-ModularDevTool

vivo互联网技术

android 客户端 模块化

vue为什么v-for的优先级比v-if的高?

bb_xiaxia1998

Vue

【Redis故障排查】「连接失败问题排查和解决」带你总体分析和整理Redis的问题故障实战开发指南及方案

码界西柚

redis 故障排查 2月日更 故障排查/诊断

热启动预示生态起航的Smart Finance,与深度赋能的SMART通证

鳄鱼视界

dotnet 8 preview 1 即将发布

newbe36524

C# Docker Kubernetes

Java高手速成 | WebFlux框架的函数式开发模式

TiAmo

Java WebFlux

Avatar阿凡达模式项目系统开发逻辑(成熟技术)

I8O28578624

Multicoin Capital资本2023展望

股市老人

手写一个前端存储工具库

jump-jump

JavaScript typescript 缓存 性能优化 工具库

Smart Finance 热启动创世开启,参与质押瓜分SMART资产

股市老人

从输入URL到渲染的完整过程

loveX001

JavaScript

【开发宝典】Java并发系列教程

京东科技开发者

Java 内存 并发 Monitor 企业号 2 月 PK 榜

前端一面必会vue面试题总结

bb_xiaxia1998

Vue

重磅官宣,OpenHarmony技术峰会来了

OpenHarmony开发者

OpenHarmony

new Vue的时候到底做了什么

bb_xiaxia1998

Vue

Salesforce最新研究:LLM 智能体 CRM 测试成功率低至 35%,保密意识还低,企业敢用吗?   _AI&大模型_华卫_InfoQ精选文章