阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

新型威胁:探索 LLM 攻击对网络安全的冲击

  • 2023-10-03
    北京
  • 本文字数:1430 字

    阅读完需:约 5 分钟

大小:798.58K时长:04:32
新型威胁:探索LLM攻击对网络安全的冲击

来自卡内基梅隆大学(CMU)的研究人员发布了LLM Attacks,这是一种可以针对各种大型语言模型(LLM)构建对抗性攻击的算法,包括ChatGPTClaudeBard。这些自动生成的攻击,在 GPT-3.5 和 GPT-4 上的成功率为 84%,在PaLM-2上的成功率为 66%。

 

与大多数“越狱”攻击通过试错手工构建不同,CMU 的团队设计了一个三步流程来自动生成提示后缀,它们可以绕过 LLM 的安全机制,导致有害的响应。而且,这些提示还是可转移(transferrable)的,也就是说,一个给定的后缀通常可以用于许多不同的 LLM,甚至是闭源模型。为了衡量算法的有效性,研究人员创建了一个名为 AdvBench 的基准测试;在此基准测试上进行评估时,LLM 攻击对 Vicuna 的成功率为 88%,而基线对抗算法的成功率为 25%。根据 CMU 团队的说法:


最令人担忧的也许是,目前尚不清楚 LLM 提供商是否能够完全修复此类行为。在过去的 10 年里,在计算机视觉领域,类似的对抗性攻击已经被证明是一个非常棘手的问题。有可能深度学习模型根本就无法避免这种威胁。因此,我们认为,在增加对此类人工智能模型的使用和依赖时,应该考虑到这些因素。

 

随着 ChatGPT 和 GPT-4 的发布,出现了许多破解这些模型的技术,其中就包括可能导致模型绕过其保护措施并输出潜在有害响应的提示。虽然这些提示通常是通过实验发现的,但 LLM Attacks 算法提供了一种自动创建它们的方法。第一步是创建一个目标令牌序列:“Sure, here is (content of query)”,其中“content of query”是用户实际输入的提示,要求进行有害的响应。

 

接下来,该算法会查找可能导致 LLM 输出目标序列的令牌序列,基于贪婪坐标梯度(GCG)算法为提示生成一个对抗性后缀。虽然这确实需要访问 LLM 的神经网络,但研究团队发现,在许多开源模型上运行 GCG 所获得的结果甚至可以转移到封闭模型中。

 

CMU发布的一条介绍其研究成果的新闻中,论文合著者 Matt Fredrikson 表示:


令人担忧的是,这些模型将在没有人类监督的自主系统中发挥更大的作用。随着自主系统越来越真实,我们要确保有一种可靠的方法来阻止它们被这类攻击所劫持,这将非常重要……现在,我们根本没有一个令人信服的方法来防止这种事情的发生,所以下一步,我们要找出如何修复这些模型……了解如何发动这些攻击通常是建立强大防御的第一步。

 

论文第一作者、CMU博士生Andy Zou在推特上谈到了这项研究。他写道:


尽管存在风险,但我们认为还是应该把它们全部披露出来。这里介绍的攻击很容易实现,以前也出现过形式类似的攻击,并且最终也会被致力于滥用 LLM 的团队所发现。

 

剑桥大学助理教授David Krueger回复了Zou的帖子,他说:


在图像模型中,10 年的研究和成千上万的出版物都未能找出解决对抗样本的方法,考虑到这一点,我们有充分的理由相信,LLM 同样会如此。

 

在 Hacker News 上关于这项工作的讨论中,有一位用户指出


别忘了,本研究的重点是,这些攻击不需要使用目标系统来开发。作者谈到,攻击是“通用的”,他们的意思是说,他们可以在自己的计算机上完全使用本地模型来生成这些攻击,然后将它们复制并粘贴到 GPT-3.5 中,并看到了有意义的成功率。速率限制并不能帮你避免这种情况,因为攻击是在本地生成的,而不是用你的服务器生成的。你的服务器收到的第一个提示已经包含了生成好的攻击字符串——研究人员发现,在某些情况下,即使是对 GPT-4,成功率也在 50%左右。

 

GitHub 上提供了代码,你可以在 AdvBench 数据上重现LLM Attacks实验。项目网站上还提供了几个对抗性攻击的演示

 

原文链接:

https://www.infoq.com/news/2023/08/llm-attack/

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-10-03 08:005687

评论

发布
暂无评论
发现更多内容

FFmpeg使用基础(音视频开发入门)

赖猫

架构师训练营第 1 期第 12 周学习总结

好吃不贵

极客大学架构师训练营

性能优化总结二

Mars

前端不得不懂的架构知识(中)

执鸢者

架构 大前端

架构之书:雄心与《C++语言的设计与演化》

lidaobing

c++ 架构

架构师训练营 第八周作业

文江

第十二周作业

alpha

极客大学架构师训练营

别再用智能合约时代的思维,去思考下一代区块链应用

CECBC

区块链 计算机

架构师训练营第八周作业1

韩儿

【第十二周】课后作业

云龙

性能优化练习

Mars

第十二周作业(作业一)

Geek_83908e

架构师一期

第八周总结

孤星

架构师训练营第 1 期 - 第 12 周课后练习

Anyou Liu

极客大学架构师训练营

架构师训练营 1 期第 12 周:数据应用(一)- 作业

piercebn

极客大学架构师训练营

《社会中的数据可视化》PDF免费下载

计算机与AI

数据可视化

许可区块链是许多金融应用未来的关键特性

CECBC

比特币区块链

银行业大数据应用及HiveQLjoin分析

garlic

极客大学架构师训练营

第八周 作业

Jack

第十二周作业(作业二)

Geek_83908e

架构师一期

架构师训练营第 1 期 week12

张建亮

极客大学架构师训练营

Prometheus backfilling 功速体验

Grafana 爱好者

Prometheus tsdb

架构师训练营第三周”代码重构“作业

随秋

极客大学架构师训练营

架构师训练营 2 期 - 第八周总结

Geek_no_one

极客大学架构师训练营

生产环境全链路压测建设历程之七: 淘宝网2012年双十一库存超卖问题的本质

数列科技杨德华

Codurance不太一样

sherlockq

宝马区块链负责人:我们是如何让区块链技术与汽车产业结合的?

CECBC

大数据

Prometheus TSDB(Part 1):头块

Grafana 爱好者

Prometheus tsdb

架构师训练营 2 期 - 第 8 周命题作业

Geek_no_one

极客大学架构师训练营

第八周作业

孤星

02-week3-homework

J

极客大学架构师训练营

新型威胁:探索LLM攻击对网络安全的冲击_AI 工程化_Anthony Alford_InfoQ精选文章