
整理 | 华卫
学术界开发的一项新基准测试显示,基于大型语言模型(LLM)的 AI 智能体在标准客户关系管理(CRM)测试中表现欠佳,且未能理解客户信息保密的必要性。
由 Salesforce AI 研究员黄 Kung-Hsiang 领导的团队通过依赖合成数据的新基准测试表明,LLM 智能体在无需后续操作或额外信息的单步任务中,成功率约为 58%。而使用基准工具 CRMArena-Pro 的测试进一步显示,当任务需要多步骤完成时,LLM 智能体的成功率骤降至 35%。
另一项值得关注的问题在于 LLM 智能体对机密信息的处理。上月末发表的一篇论文指出:“智能体的保密意识较低,尽管可通过针对性提示改善,但往往会对任务执行产生负面影响。”
Salesforce AI 研究团队认为,现有基准测试未能严格衡量 AI 智能体的能力或局限,且在很大程度上忽视了对其识别敏感信息及遵守数据处理规范能力的评估。
该研究团队的 CRMArena-Pro 工具通过输入真实合成数据的管道来填充 Salesforce 组织,构建沙盒环境。智能体接收用户查询后,需决定是调用 API 接口,还是回复用户以获取更多信息或直接提供答案。
论文提到:“这些发现表明,当前 LLM 的能力与现实企业场景的多维度需求之间存在显著差距。”这一结论可能令 LLM 驱动的 AI 智能体的开发者和用户均感担忧。Salesforce 联合创始人兼首席执行官马克·贝尼奥夫(Marc Benioff)去年曾向投资者表示,AI 智能体对这家 SaaS CRM 供应商而言是“高利润率机遇”,因为客户通过使用 AI 智能体提升员工效率,企业可从中分享收益。
此外,英国政府称将通过数字化和效率提升计划,目标在 2029 年前节省 138 亿英镑(187 亿美元),这一计划部分依赖 AI 智能体的应用。
尽管 AI 智能体可能颇具价值,但各组织在验证其实际效益前,仍需谨慎看待对其带来的收益预期。
参考链接:
https://www.theregister.com/2025/06/16/salesforce_llm_agents_benchmark/
评论