写点什么

DeepMind 提出 CaMeL,抵御 LLM 提示词注入

  • 2025-05-14
    北京
  • 本文字数:1419 字

    阅读完需:约 5 分钟

大小:701.94K时长:03:59
DeepMind提出CaMeL,抵御LLM提示词注入

为了防止在处理来自不可信来源的数据时遭受提示词注入攻击,谷歌 DeepMind 的研究人员提出了 CaMeL,一种围绕 LLM 的防御层,通过从查询中提取控制流和数据流来阻止恶意输入。根据他们的实验结果,CaMeL 能够在 AgentDojo 安全基准测试中抵御 67% 的攻击。


众所周知,攻击者可以将恶意数据或指令注入到 LLM 的上下文中,目的是窃取数据或诱导模型以有害的方式执行操作。例如,攻击者可能会尝试获取聊天机器人的系统提示词,以便获取控制权或窃取敏感信息,例如访问私有 Slack 频道中的数据。更令人担忧的是,当 LLM 能够访问具有现实世界影响的工具时,比如发送电子邮件或下单,这种情况的风险就更大了。


即使 LLM 采取了特定策略来防御提示词注入攻击,攻击者仍会设法绕过这些防护措施。一个近期的例子是 AI 安全专家 Johann Rehberger 展示的一种类似网络钓鱼的攻击,成功绕过了 Gemini 对延迟工具执行的保护


CaMeL 是一项旨在解决这些风险的新提案。CaMeL 不依赖更多的人工智能来防御人工智能系统(例如基于人工智能的提示词注入检测器),而是采用了传统的软件安全原则,如控制流完整性、访问控制和信息流控制。


CaMeL 为每个值关联了一些元数据(在软件安全文献中通常被称为能力),用于限制数据和控制流,并通过使用细粒度的安全策略来表达可以和不可以对每个独立值进行哪些操作。


CaMeL 使用自定义的 Python 解释器来跟踪数据和指令的来源,强制执行基于能力的安全性保障,无需对 LLM 本身进行任何修改。它借鉴了 Simon Willison(他首次提出了“提示词注入”一词)所描述的双 LLM 模式,并以巧妙的方式对其进行了扩展。


Willison 最初的提议包含了一个拥有特权的 LLM,它直接处理用户的提示词,以及一个被隔离的 LLM,它接触的是不可信的数据,并且无法使用任何工具。拥有特权的 LLM 管理工作流程,并可能要求被隔离的 LLM 从不受信任的数据中提取特定信息,例如电子邮件地址。这确保了特权 LLM 永远不会直接接触到不受信任的内容,只处理隔离模型返回的、经过过滤的结果。


谷歌研究人员表示,这种方案的缺陷在于,攻击者仍然可以操纵被隔离的 LLM 生成误导性的输出,例如未经授权访问敏感信息的收件人的电子邮件地址。


在他们的新方案中,特权 LLM 会生成一个使用受限的 Python 子集编写的程序,这个程序负责执行所有必要的步骤。当这个程序从被隔离的 LLM 或其他工具接收数据时,它会构建一个数据流图,跟踪每个数据元素的来源、访问权限和相关元数据。随后,这些元数据被用来确保对数据的任何操作都符合特权限制。


正如 Willison 在回应 CaMeL 提议时所强调的,这种方法的重要性在于不依赖更多的人工智能来解决人工智能问题


人工智能技术使用的是概率:你可以用一系列以前的提示词注入示例来训练模型,并在检测新的示例时获得 99% 的分数……但这毫无用处,因为在应用安全中,99% 是一个不及格的分数。


为了测试 CaMeL 的有效性,DeepMind 的研究人员将其整合到 AgentDojo 中,一个自主智能体安全基准测试,涵盖了现实世界的一系列实用性和安全性任务。


DeepMind 的研究人员承认,CaMeL 并不是 LLM 安全的完美解决方案,最大的局限在于在于依赖用户定义的安全策略。此外,由于 CaMeL 可能需要用户手动审批涉及隐私的任务,这可能会导致用户疲劳,做出自动化或草率的审批。


如需了解更多讨论细节,请不要错过原始论文。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


查看英文原文https://www.infoq.com/news/2025/04/deepmind-camel-promt-injection/

2025-05-14 10:203529

评论

发布
暂无评论

跨境电商网站运营最苦岗位?华为云这款轻量应用服务器轻松胜任

平平无奇爱好科技

从职场到创业,请查收华为云这份高效创业指南

YG科技

Java基础面试题【分布式】Kafka

派大星

Java 面试题

中小企业如何以最低成本数字化?华为云耀云服务器L实例给出完美答案

平平无奇爱好科技

“出海”在即?华为云这份跨境电商运营指南让新手商家少走弯路

平平无奇爱好科技

降维打击_友商_?华为云这款轻量应用服务器性能全面升级

平平无奇爱好科技

年终企业采购潮来袭!华为云这款轻量应用服务器值得入手

轶天下事

不让竞品活了?华为云这款轻量应用服务器更强规格来袭!

YG科技

还迷信传统服务器开发小程序游戏?华为云耀云服务器L实例才是“正道”

平平无奇爱好科技

小程序游戏卡的“掉渣”,华为云耀云服务器L实例助你重回丝滑体验!

YG科技

Kubernetes 漫游:理解 ConfigMap

Phoenix

Kubernetes, 云原生, eBPF

轻量应用服务器领域,这款产品何以被冠“国民级”美誉

平平无奇爱好科技

穿越经济寒冬,华为云这款轻量应用服务器助力企业破局新生

平平无奇爱好科技

2023年双11大促,华为云耀云服务器最佳抄底时间来袭!

YG科技

同程面试:说一下多态的实现原理?

王磊

Java 面试 java面试

Dapp技术开发介绍

区块链技术

跨境电商网站旺季爆单崩溃?华为云这款轻量应用服务器值得拥有

平平无奇爱好科技

小程序游戏如何选择服务器?华为云轻量服务器重塑体验

轶天下事

小程序开发更吸“金”,华为云这个轻量应用服务器功不可没

YG科技

2023双十一爆单攻略,中小跨界商家别错过华为云捞金最佳机遇.

YG科技

“跨”入蓬勃生长新时代,华为云耀云服务器L实例赋能跨境电商

平平无奇爱好科技

高效率低成本!网站开发还得仰仗华为云这款宝藏工具

平平无奇爱好科技

电商网站防崩溃秘诀来袭!华为云这款轻量应用服务器稳赚不赔

轶天下事

数字化尽头是轻量应用服务器,华为云耀云服务器L实例打开无限可能

轶天下事

年底续费服务器太贵?华为云这款轻量应用服务器正是最佳入手时候

轶天下事

项目开发冲刺难度大?华为云这款轻量应用服务器助力大好“收官战”

平平无奇爱好科技

全面宣战!华为云耀云服务器L实例推出更强规格

YG科技

英特尔CEO:以“系统级代工”满足“芯经济”时代客户需求

E科讯

年终项目抢进度?华为云这款轻量服务器全面冲刺全年目标

轶天下事

双11电商节未“战”先“卡”?华为云这款轻量应用服务器是时候亮出“必杀技”

轶天下事

Amazon EC2 新手初探:初始设置之密钥对

王强

亚马逊云服务 Amaozn EC2

DeepMind提出CaMeL,抵御LLM提示词注入_AI&大模型_Sergio De Simone_InfoQ精选文章