阿里云飞天发布时刻,领先大模型限免,超7000万 tokens免费体验 了解详情
写点什么

DeepMind 提出 CaMeL,抵御 LLM 提示词注入

  • 2025-05-14
    北京
  • 本文字数:1419 字

    阅读完需:约 5 分钟

大小:701.94K时长:03:59
DeepMind提出CaMeL,抵御LLM提示词注入

为了防止在处理来自不可信来源的数据时遭受提示词注入攻击,谷歌 DeepMind 的研究人员提出了 CaMeL,一种围绕 LLM 的防御层,通过从查询中提取控制流和数据流来阻止恶意输入。根据他们的实验结果,CaMeL 能够在 AgentDojo 安全基准测试中抵御 67% 的攻击。


众所周知,攻击者可以将恶意数据或指令注入到 LLM 的上下文中,目的是窃取数据或诱导模型以有害的方式执行操作。例如,攻击者可能会尝试获取聊天机器人的系统提示词,以便获取控制权或窃取敏感信息,例如访问私有 Slack 频道中的数据。更令人担忧的是,当 LLM 能够访问具有现实世界影响的工具时,比如发送电子邮件或下单,这种情况的风险就更大了。


即使 LLM 采取了特定策略来防御提示词注入攻击,攻击者仍会设法绕过这些防护措施。一个近期的例子是 AI 安全专家 Johann Rehberger 展示的一种类似网络钓鱼的攻击,成功绕过了 Gemini 对延迟工具执行的保护


CaMeL 是一项旨在解决这些风险的新提案。CaMeL 不依赖更多的人工智能来防御人工智能系统(例如基于人工智能的提示词注入检测器),而是采用了传统的软件安全原则,如控制流完整性、访问控制和信息流控制。


CaMeL 为每个值关联了一些元数据(在软件安全文献中通常被称为能力),用于限制数据和控制流,并通过使用细粒度的安全策略来表达可以和不可以对每个独立值进行哪些操作。


CaMeL 使用自定义的 Python 解释器来跟踪数据和指令的来源,强制执行基于能力的安全性保障,无需对 LLM 本身进行任何修改。它借鉴了 Simon Willison(他首次提出了“提示词注入”一词)所描述的双 LLM 模式,并以巧妙的方式对其进行了扩展。


Willison 最初的提议包含了一个拥有特权的 LLM,它直接处理用户的提示词,以及一个被隔离的 LLM,它接触的是不可信的数据,并且无法使用任何工具。拥有特权的 LLM 管理工作流程,并可能要求被隔离的 LLM 从不受信任的数据中提取特定信息,例如电子邮件地址。这确保了特权 LLM 永远不会直接接触到不受信任的内容,只处理隔离模型返回的、经过过滤的结果。


谷歌研究人员表示,这种方案的缺陷在于,攻击者仍然可以操纵被隔离的 LLM 生成误导性的输出,例如未经授权访问敏感信息的收件人的电子邮件地址。


在他们的新方案中,特权 LLM 会生成一个使用受限的 Python 子集编写的程序,这个程序负责执行所有必要的步骤。当这个程序从被隔离的 LLM 或其他工具接收数据时,它会构建一个数据流图,跟踪每个数据元素的来源、访问权限和相关元数据。随后,这些元数据被用来确保对数据的任何操作都符合特权限制。


正如 Willison 在回应 CaMeL 提议时所强调的,这种方法的重要性在于不依赖更多的人工智能来解决人工智能问题


人工智能技术使用的是概率:你可以用一系列以前的提示词注入示例来训练模型,并在检测新的示例时获得 99% 的分数……但这毫无用处,因为在应用安全中,99% 是一个不及格的分数。


为了测试 CaMeL 的有效性,DeepMind 的研究人员将其整合到 AgentDojo 中,一个自主智能体安全基准测试,涵盖了现实世界的一系列实用性和安全性任务。


DeepMind 的研究人员承认,CaMeL 并不是 LLM 安全的完美解决方案,最大的局限在于在于依赖用户定义的安全策略。此外,由于 CaMeL 可能需要用户手动审批涉及隐私的任务,这可能会导致用户疲劳,做出自动化或草率的审批。


如需了解更多讨论细节,请不要错过原始论文。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


查看英文原文https://www.infoq.com/news/2025/04/deepmind-camel-promt-injection/

2025-05-14 10:203462

评论

发布
暂无评论

2024中国联通合作伙伴大会 | 思特奇强化“新IT架构”能力,助力运营商智赢未来

先锋IT

融云 2024 ChinaJoy | 你有一个必逛的展位 @W4 馆 B786

融云 RongCloud

MES使用后对工厂车间产生的重大影响

万界星空科技

生产管理系统 mes 云mes 万界星空科技 车间管理

文献解读-临床试验-第二十一期|《输注piggyBac修饰的CD19 CAR-T细胞后产物衍生性淋巴细胞瘤的研究》

INSVAST

基因数据分析 生信服务

App如何利用推送消息有效实现拉新促活?

HarmonyOS SDK

HarmonyOS

万界星空科技机械加工MES功能介绍

万界星空科技

mes 万界星空科技 机加工MES 机械加工

MobPush REST API 概述

MobTech袤博科技

Java 开发者 产品动态

某交通运输企业SRE Foundation团体培训圆满结束

雅菲奥朗

DevOps SRE SRE培训 SRE认证 SRE Foundation

活动回顾|Unstructured Data Meetup 北京场

Zilliz

AI Milvus Zilliz 向量数据库 RAG知识库

智能化数据安全分类分级实践

鲸品堂

企业号2024年7月PK榜

系统整容纪:揭秘Java编程之美:掌握这些编码规范,让你的代码一跃成为行业典范

京东科技开发者

云电脑赋能多场景融合:ToDesk云电脑、无影云、青椒云综合评测

小喵子

无影云电脑 云电脑 ToDesk ToDesk云电脑 云电竞

【YashanDB知识库】EXP导致主机卡死问题

YashanDB

yashandb 崖山数据库 崖山DB

(内含福利!!) 8月17日,邀您共赴南京Unstructured Data Meetup!

Zilliz

AI Milvus Zilliz 向量数据库 RAG知识库

IT研发、运维、技术等相关人员为什么要参加DevOps培训?

雅菲奥朗

DevOps 运维 开发 DevOps认证 DevOps培训

广告在线模型系统负载均衡策略实践

京东科技开发者

DeepMind提出CaMeL,抵御LLM提示词注入_AI&大模型_Sergio De Simone_InfoQ精选文章