【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

新型威胁:探索 LLM 攻击对网络安全的冲击

  • 2023-10-03
    北京
  • 本文字数:1430 字

    阅读完需:约 5 分钟

大小:798.58K时长:04:32
新型威胁:探索LLM攻击对网络安全的冲击

来自卡内基梅隆大学(CMU)的研究人员发布了LLM Attacks,这是一种可以针对各种大型语言模型(LLM)构建对抗性攻击的算法,包括ChatGPTClaudeBard。这些自动生成的攻击,在 GPT-3.5 和 GPT-4 上的成功率为 84%,在PaLM-2上的成功率为 66%。

 

与大多数“越狱”攻击通过试错手工构建不同,CMU 的团队设计了一个三步流程来自动生成提示后缀,它们可以绕过 LLM 的安全机制,导致有害的响应。而且,这些提示还是可转移(transferrable)的,也就是说,一个给定的后缀通常可以用于许多不同的 LLM,甚至是闭源模型。为了衡量算法的有效性,研究人员创建了一个名为 AdvBench 的基准测试;在此基准测试上进行评估时,LLM 攻击对 Vicuna 的成功率为 88%,而基线对抗算法的成功率为 25%。根据 CMU 团队的说法:


最令人担忧的也许是,目前尚不清楚 LLM 提供商是否能够完全修复此类行为。在过去的 10 年里,在计算机视觉领域,类似的对抗性攻击已经被证明是一个非常棘手的问题。有可能深度学习模型根本就无法避免这种威胁。因此,我们认为,在增加对此类人工智能模型的使用和依赖时,应该考虑到这些因素。

 

随着 ChatGPT 和 GPT-4 的发布,出现了许多破解这些模型的技术,其中就包括可能导致模型绕过其保护措施并输出潜在有害响应的提示。虽然这些提示通常是通过实验发现的,但 LLM Attacks 算法提供了一种自动创建它们的方法。第一步是创建一个目标令牌序列:“Sure, here is (content of query)”,其中“content of query”是用户实际输入的提示,要求进行有害的响应。

 

接下来,该算法会查找可能导致 LLM 输出目标序列的令牌序列,基于贪婪坐标梯度(GCG)算法为提示生成一个对抗性后缀。虽然这确实需要访问 LLM 的神经网络,但研究团队发现,在许多开源模型上运行 GCG 所获得的结果甚至可以转移到封闭模型中。

 

CMU发布的一条介绍其研究成果的新闻中,论文合著者 Matt Fredrikson 表示:


令人担忧的是,这些模型将在没有人类监督的自主系统中发挥更大的作用。随着自主系统越来越真实,我们要确保有一种可靠的方法来阻止它们被这类攻击所劫持,这将非常重要……现在,我们根本没有一个令人信服的方法来防止这种事情的发生,所以下一步,我们要找出如何修复这些模型……了解如何发动这些攻击通常是建立强大防御的第一步。

 

论文第一作者、CMU博士生Andy Zou在推特上谈到了这项研究。他写道:


尽管存在风险,但我们认为还是应该把它们全部披露出来。这里介绍的攻击很容易实现,以前也出现过形式类似的攻击,并且最终也会被致力于滥用 LLM 的团队所发现。

 

剑桥大学助理教授David Krueger回复了Zou的帖子,他说:


在图像模型中,10 年的研究和成千上万的出版物都未能找出解决对抗样本的方法,考虑到这一点,我们有充分的理由相信,LLM 同样会如此。

 

在 Hacker News 上关于这项工作的讨论中,有一位用户指出


别忘了,本研究的重点是,这些攻击不需要使用目标系统来开发。作者谈到,攻击是“通用的”,他们的意思是说,他们可以在自己的计算机上完全使用本地模型来生成这些攻击,然后将它们复制并粘贴到 GPT-3.5 中,并看到了有意义的成功率。速率限制并不能帮你避免这种情况,因为攻击是在本地生成的,而不是用你的服务器生成的。你的服务器收到的第一个提示已经包含了生成好的攻击字符串——研究人员发现,在某些情况下,即使是对 GPT-4,成功率也在 50%左右。

 

GitHub 上提供了代码,你可以在 AdvBench 数据上重现LLM Attacks实验。项目网站上还提供了几个对抗性攻击的演示

 

原文链接:

https://www.infoq.com/news/2023/08/llm-attack/

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-10-03 08:005707

评论

发布
暂无评论
发现更多内容

MASA Framework的分布式锁设计

MASA技术团队

.net 分布式锁 MASA Framewrok MASA

高并发之限流

源字节1号

软件开发 后端开发

微软 × 灵雀云 × 中建信息 联合推出基于Azure的云原生全栈解决方案

York

alauda 云原生 azure 数字化转型 虚拟化

TiDB生命周期

TiDB 社区干货传送门

实践案例 集群管理 管理与运维 数据库架构设计

一文带你了解隐私 Layer1

TinTinLand

区块链 隐私

VUE3中watch与watchEffect —— 全网最详细系列

海底烧烤店ai

前端 响应式编程 Vue3 9月月更

StarlingX 7.0 已发布!进一步强化可扩展性、安全性及灵活性

Geek_2d6073

2022-09微软漏洞通告

火绒安全

microsoft 安全 终端安全 安全漏洞

跨链自动化中心 OAK Network,构建安全高效 Web3 基础设施

One Block Community

Substrate defi 跨链 区块链、

Vite+Vue3+Vue-Router+Vuex+CSS预处理器(less/sass) 配置指南 —— 全网最详细系列

海底烧烤店ai

前端 Vue3 9月月更 项目搭建

Qualcomm IPQ5018 solution application wifi6 wallys ,QCN9074, 2. 4G/5G

wallys-wifi6

QCN9074 ipq5018' ipq5015

使用Rust开发后端——Actix-Web

CodeWithBuff

后端 actix-web ​Rust

数字化转型的认识偏见十宗罪

博文视点Broadview

羊了个羊区块链挖矿游戏系统开发模式玩法

开发微hkkf5566

【微信小程序】常用组件及基本使用详解

陈橘又青

小程序开发 9月月更

C++学习---cstdio的源码学习分析01-类型定义

桑榆

c++ 源码阅读 9月月更

Dapp系统开发智能合约部署

薇電13242772558

智能合约

TiDB部署----openEuler2203/2003 单机部署TiDB 6.1.1

TiDB 社区干货传送门

安装 & 部署

依据TIdb执行计划的sql调优案例分享

TiDB 社区干货传送门

性能调优 管理与运维 HTAP 场景实践 大数据场景实践

MyBatis-Plus(二、常用注解)

注解 MyBatisPlus 9月月更

十年大厂资深面试官告诉你,现在Java面试八股文都已经卷到什么程度了

Java永远的神

程序员 程序人生 设计模式 中间件 java面试

数字机器人及超级自动化产品和方案提供商朗思科技加入龙蜥社区

OpenAnolis小助手

AI 龙蜥社区 CLA 朗思科技

观测云产品更新|新增基础设施 YAML 显示;新增日志查看器 DQL 搜索模式;优化应用性能监测等

观测云

AI加速器与机器学习算法:协同设计与进化

OneFlow

机器学习 深度学习 AI 加速器

Vite构建的Vue3项目打包部署到Gitee —— 全网最详细系列

海底烧烤店ai

前端 vite Vue3 部署 9月月更

理解elasticsearch的post_filter

程序员欣宸

elasticsearch 9月月更

云安全是什么?是哪个企业提出的概念?

行云管家

云计算 网络安全 安全 云安全

玩转ApiFox脚本实现自动化

Liam

测试 Postman API 测试自动化 脚本自动化

一招教你如何高效批量导入与更新数据

华为云开发者联盟

数据库 sql 后端 企业号九月金秋榜

TiDB分布式事务—写写冲突

TiDB 社区干货传送门

故障排查/诊断

等保2.0是什么意思?谁能详细解释一下!

行云管家

云计算 等保 等级保护 等保2.0

新型威胁:探索LLM攻击对网络安全的冲击_AI 工程化_Anthony Alford_InfoQ精选文章