写点什么

新型威胁:探索 LLM 攻击对网络安全的冲击

  • 2023-10-03
    北京
  • 本文字数:1430 字

    阅读完需:约 5 分钟

大小:798.58K时长:04:32
新型威胁:探索LLM攻击对网络安全的冲击

来自卡内基梅隆大学(CMU)的研究人员发布了LLM Attacks,这是一种可以针对各种大型语言模型(LLM)构建对抗性攻击的算法,包括ChatGPTClaudeBard。这些自动生成的攻击,在 GPT-3.5 和 GPT-4 上的成功率为 84%,在PaLM-2上的成功率为 66%。

 

与大多数“越狱”攻击通过试错手工构建不同,CMU 的团队设计了一个三步流程来自动生成提示后缀,它们可以绕过 LLM 的安全机制,导致有害的响应。而且,这些提示还是可转移(transferrable)的,也就是说,一个给定的后缀通常可以用于许多不同的 LLM,甚至是闭源模型。为了衡量算法的有效性,研究人员创建了一个名为 AdvBench 的基准测试;在此基准测试上进行评估时,LLM 攻击对 Vicuna 的成功率为 88%,而基线对抗算法的成功率为 25%。根据 CMU 团队的说法:


最令人担忧的也许是,目前尚不清楚 LLM 提供商是否能够完全修复此类行为。在过去的 10 年里,在计算机视觉领域,类似的对抗性攻击已经被证明是一个非常棘手的问题。有可能深度学习模型根本就无法避免这种威胁。因此,我们认为,在增加对此类人工智能模型的使用和依赖时,应该考虑到这些因素。

 

随着 ChatGPT 和 GPT-4 的发布,出现了许多破解这些模型的技术,其中就包括可能导致模型绕过其保护措施并输出潜在有害响应的提示。虽然这些提示通常是通过实验发现的,但 LLM Attacks 算法提供了一种自动创建它们的方法。第一步是创建一个目标令牌序列:“Sure, here is (content of query)”,其中“content of query”是用户实际输入的提示,要求进行有害的响应。

 

接下来,该算法会查找可能导致 LLM 输出目标序列的令牌序列,基于贪婪坐标梯度(GCG)算法为提示生成一个对抗性后缀。虽然这确实需要访问 LLM 的神经网络,但研究团队发现,在许多开源模型上运行 GCG 所获得的结果甚至可以转移到封闭模型中。

 

CMU发布的一条介绍其研究成果的新闻中,论文合著者 Matt Fredrikson 表示:


令人担忧的是,这些模型将在没有人类监督的自主系统中发挥更大的作用。随着自主系统越来越真实,我们要确保有一种可靠的方法来阻止它们被这类攻击所劫持,这将非常重要……现在,我们根本没有一个令人信服的方法来防止这种事情的发生,所以下一步,我们要找出如何修复这些模型……了解如何发动这些攻击通常是建立强大防御的第一步。

 

论文第一作者、CMU博士生Andy Zou在推特上谈到了这项研究。他写道:


尽管存在风险,但我们认为还是应该把它们全部披露出来。这里介绍的攻击很容易实现,以前也出现过形式类似的攻击,并且最终也会被致力于滥用 LLM 的团队所发现。

 

剑桥大学助理教授David Krueger回复了Zou的帖子,他说:


在图像模型中,10 年的研究和成千上万的出版物都未能找出解决对抗样本的方法,考虑到这一点,我们有充分的理由相信,LLM 同样会如此。

 

在 Hacker News 上关于这项工作的讨论中,有一位用户指出


别忘了,本研究的重点是,这些攻击不需要使用目标系统来开发。作者谈到,攻击是“通用的”,他们的意思是说,他们可以在自己的计算机上完全使用本地模型来生成这些攻击,然后将它们复制并粘贴到 GPT-3.5 中,并看到了有意义的成功率。速率限制并不能帮你避免这种情况,因为攻击是在本地生成的,而不是用你的服务器生成的。你的服务器收到的第一个提示已经包含了生成好的攻击字符串——研究人员发现,在某些情况下,即使是对 GPT-4,成功率也在 50%左右。

 

GitHub 上提供了代码,你可以在 AdvBench 数据上重现LLM Attacks实验。项目网站上还提供了几个对抗性攻击的演示

 

原文链接:

https://www.infoq.com/news/2023/08/llm-attack/

2023-10-03 08:006108

评论

发布
暂无评论
发现更多内容

数智浪潮!低代码开发平台扬帆迈向智慧诊疗领域新纪元!

不在线第一只蜗牛

人工智能 低代码 数智化 医疗健康

低代码平台实用吗?有哪些大型企业在用低代码?

优秀

低代码

AI写代码靠谱吗?

石云升

ChatGPT AI编码

Java程序性能分析:内存

javalover123

Java 性能优化 性能 性能分析 性能监控

业务系统技术债治理终极指南

高鹏

Java 架构

软件测试/测试开发丨Windows系统chromedriver安装与环境变量配置

测试人

软件测试 windows 环境变量 测试开发 chromedriver

架构师的核心工作:价值放大

高鹏

Java 深度思考 架构 架构师

一些有用的资料

Joseph295

活动回顾 | StoneDB亮相2023数据技术嘉年华:增强AP、升级TP、信创替换,让万千DBA用得更省心,企业用得更省钱

StoneDB

数据技术 StoneDB 数据技术嘉年华

StoneDB 开源社区月刊 | 202303期

StoneDB

MySQL 数据库 StoneDB

【HDC.Cloud 2023】华为云区块链分论坛内容值得再读!

华为云PaaS服务小智

云计算 软件开发 华为云 华为开发者大会2023

率先布局 RWA 赛道,PoseiSwap 成为最具先进性的 DEX

鳄鱼视界

Istio与Mcp Server服务器讲解与搭建演示

谐云

istio

C++中set的用法学习

芯动大师

Gluten + Celeborn: 让 Native Spark 拥抱 Cloud Native

阿里云大数据AI技术

后端 企业号 7 月 PK 榜 Push Shuffle

Last Week in Milvus

Zilliz

云服务 非结构化数据 Milvus Zilliz zillizcloud

OpenTiny 前端组件库正式开源啦!面向未来,为开发者而生

OpenTiny社区

开源 前端 UI组件库

神州数码:我们和阿里云是市场和技术的共同体

新云力量

云计算 阿里云 神州数码

率先布局 RWA 赛道,PoseiSwap 成为最具先进性的 DEX

BlockChain先知

率先布局 RWA 赛道,PoseiSwap 成为最具先进性的 DEX

股市老人

2023-07-10:Kafka如何做到消息不丢失?

福大大架构师每日一题

福大大架构师每日一题

面向大模型的存储加速方案设计和实践

Baidu AICLOUD

数据湖 大模型 并行文件系统 缓存加速

率先布局 RWA 赛道,PoseiSwap 成为最具先进性的 DEX

大瞿科技

权衡矩阵-《敏捷实战-破解敏捷落地的60个难题》读后感

Bruce Talk

数字税务时代的革新利器:低代码开发平台助力税务办公数字化大步迈进!

快乐非自愿限量之名

人工智能 低代码 数智化 税务云

低代码平台之流程自动化测试

鲸品堂

低代码 企业号 7 月 PK 榜

国家电投江西公司与特斯联设立合资公司 发掘资本在新能源行业的潜在投资机遇

TE智库

六月更新 | MeetingOps:让有效协作与高效会议共同发生在云端

CODING DevOps

率先布局 RWA 赛道,PoseiSwap 成为最具先进性的 DEX

威廉META

Region Failover在GreptimeDB 集群中的实现

Greptime 格睿科技

时序数据库 云原生数据库 failover region datanode

新型威胁:探索LLM攻击对网络安全的冲击_AI 工程化_Anthony Alford_InfoQ精选文章