写点什么

Salesforce 最新研究:LLM 智能体 CRM 测试成功率低至 35%,保密意识还低,企业敢用吗?  

  • 2025-06-17
    北京
  • 本文字数:761 字

    阅读完需:约 2 分钟

大小:379.73K时长:02:09
Salesforce最新研究:LLM 智能体 CRM 测试成功率低至 35%,保密意识还低,企业敢用吗?   

整理 | 华卫

 

学术界开发的一项新基准测试显示,基于大型语言模型(LLM)的 AI 智能体在标准客户关系管理(CRM)测试中表现欠佳,且未能理解客户信息保密的必要性。  

 

由 Salesforce AI 研究员黄 Kung-Hsiang 领导的团队通过依赖合成数据的新基准测试表明,LLM 智能体在无需后续操作或额外信息的单步任务中,成功率约为 58%。而使用基准工具 CRMArena-Pro 的测试进一步显示,当任务需要多步骤完成时,LLM 智能体的成功率骤降至 35%。  

 

另一项值得关注的问题在于 LLM 智能体对机密信息的处理。上月末发表的一篇论文指出:“智能体的保密意识较低,尽管可通过针对性提示改善,但往往会对任务执行产生负面影响。”

 

Salesforce AI 研究团队认为,现有基准测试未能严格衡量 AI 智能体的能力或局限,且在很大程度上忽视了对其识别敏感信息及遵守数据处理规范能力的评估。  

 

该研究团队的 CRMArena-Pro 工具通过输入真实合成数据的管道来填充 Salesforce 组织,构建沙盒环境。智能体接收用户查询后,需决定是调用 API 接口,还是回复用户以获取更多信息或直接提供答案。  

 

论文提到:“这些发现表明,当前 LLM 的能力与现实企业场景的多维度需求之间存在显著差距。”这一结论可能令 LLM 驱动的 AI 智能体的开发者和用户均感担忧。Salesforce 联合创始人兼首席执行官马克·贝尼奥夫(Marc Benioff)去年曾向投资者表示,AI 智能体对这家 SaaS CRM 供应商而言是“高利润率机遇”,因为客户通过使用 AI 智能体提升员工效率,企业可从中分享收益。  

 

此外,英国政府称将通过数字化和效率提升计划,目标在 2029 年前节省 138 亿英镑(187 亿美元),这一计划部分依赖 AI 智能体的应用。  

 

尽管 AI 智能体可能颇具价值,但各组织在验证其实际效益前,仍需谨慎看待对其带来的收益预期。

 

参考链接:

https://www.theregister.com/2025/06/16/salesforce_llm_agents_benchmark/

2025-06-17 10:433904

评论

发布
暂无评论

文心一言 VS 讯飞星火 VS chatgpt (132)-- 算法导论11.2 4题

福大大架构师每日一题

福大大架构师每日一题

为什么OpenAPI是未来企业数字化转型的决定性因素?

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 华为云API Explorer

SmartBear正式收购Stoplight,并计划在核心API设计、文档和门户产品中集成其功能

龙智—DevSecOps解决方案

SmartBear Stoplight

KubeBlocks 完成阿里云 PolarDB 数据库产品生态集成认证啦!

小猿姐

数据库 云计算 云原生

Util应用框架快速入门(四)- 集成测试 快速入门

何镇汐

C# 开源 后端 软件开发

云电脑哪家好?主流云电脑平台详细测评

青椒云云电脑

云电脑

案例分享:某汽车企业通过龙智拓展Jira功能,实现高效项目管理

龙智—DevSecOps解决方案

ChatGPT上新,效果炸裂,知识平台才是大模型的最佳狩猎场

数新网络官方账号

openai ChatGPT

改良版芯片重回中国市场?GPT-5 明年降临?丨 RTE 开发者日报 Vol.82

声网

瑞技伙伴 | WEKA® Data Platform,为AI等高性能工作负载提供澎湃动力

Bytebridge

AI HPC 存储方案 WEKA

国内首批!华为云云原生中间件DCS&DMS获软件可信“卓越级”认证

云计算 软件开发 华为云

平安人寿基于 Apache Doris 统一 OLAP 技术栈实践

SelectDB

数据库 大数据 数据仓库 数据分析 apache doris

十个使用Spring Cloud和Java创建微服务的实践案例

树上有只程序猿

Java 微服务 SpringCloud

浅析KV存储之长尾时延解决办法

华为云开发者联盟

数据库 后端 华为云 华为云开发者联盟

云桌面系统简介与深度解析

青椒云云电脑

桌面云 云桌面 云桌面系统

中国集成电路设计业2023年会演讲预告 | 龙智Perforce专家解析半导体设计中的数字资产管理

龙智—DevSecOps解决方案

芯片

百家国企走进云投集团,探索世界500强数智化转型之路

用友BIP

企业数智化

昇腾CANN 7.0 黑科技:大模型推理部署技术解密

华为云开发者联盟

人工智能 华为云 昇腾CANN 华为云开发者联盟 LLM模型

桌面云一体机有哪些厂家?价格怎么样?

青椒云云电脑

桌面云 云桌面

KubeBlocks v0.7.0 发布!支持引用外部组件,解耦备份 API,还支持了 Pika!

小猿姐

数据库 云原生

Salesforce最新研究:LLM 智能体 CRM 测试成功率低至 35%,保密意识还低,企业敢用吗?   _AI&大模型_华卫_InfoQ精选文章