探索AIGC电商新纪元,火山引擎《云上新视界》公开课等你来报名! 了解详情
写点什么

研究人员利用 80 年代的技巧来攻击 LLM

  • 2024-04-22
    北京
  • 本文字数:1010 字

    阅读完需:约 3 分钟

大小:477.82K时长:02:43
研究人员利用 80 年代的技巧来攻击 LLM

据美国安全研究人员称,只要对 20 世纪 80 年代的科幻类电影(比如《战争游戏》)中出现的 ASCII 编码艺术稍有了解,就可能骗过大模型,让它们违反自己的安全规则。

 

ASCII 编码艺术指的是由 1963 年 ASCII 标准定义的 95 个可打印字符(总共 128 个)拼凑而成的各种图片。1983 年的电影《战争游戏》或《创》中就用这种艺术绘制了一些图像,显示在剧情中出现的电脑屏幕上。用这种方法发起的越狱攻击使用了字符绘制的图像来“掩护”提示词,这样这些提示就不会被大模型的安全性微调方法标记出来了。

 

来自美国四所大学的研究人员开发了名为“ArtPrompt”的越狱手段,主要针对那些特定提示中可能被大模型的安全系统拒绝的单词。它使用 ASCII 编码艺术把安全系统识别出来的单词绘制成图形,这样就做成了隐形的提示词。这些隐藏提示可以诱导被攻击的大模型做出一些不安全的行为。

 

研究人员在五个业内领先的大模型(GPT-3.5、GPT-4、Gemini、Claude 和 Llama2)中测试了这种越狱手段,结果表明它们都很难识别伪装成 ASCII 图形的提示。

 

这种越狱方法只需要对大模型进行黑盒访问即可,并且可以让接受测试的五个大模型都“有效且高效地被诱导出不良行为”。研究人员表示这是一个漏洞,因为现在大模型内的安全防御机制是基于语义的。

 

与此同时,来自 Meta、伦敦大学学院和牛津大学的一组研究人员介绍了一种通过“彩虹团队”加强大模型内部安全保护能力的方法,该方法侧重于语义端本身的稳健性。

 

他们的论文将对抗性提示生成方法视为一种质量多样性问题。相应地,它使用开放式搜索来生成提示,可以发现模型在安全、问答和网络安全等众多领域的漏洞。

 

https://youtu.be/IrkCIBoqZgE

 

该方法采用称为“质量多样性”的进化搜索框架,以生成可以通过大模型安全保障措施的对抗性提示。

 

根据该论文,实现彩虹团队方法需要三个基本构建块:1)一组指定多样性维度的特征描述符(例如“风险类别”或“攻击风格”); 2) 一个变异算子,用于演化对抗性提示;3) 一个偏好模型,根据对抗性提示的有效性对其进行排名。

 

研究人员表示,彩虹团队框架目前仅在 Llama-2 Chat 模型上做了测试,在各个规模的模型上的攻击成功率为 90%。

 

这两篇研究论文都重点关注生成式人工智能模型的安全保障措施的稳健性,以及大模型越狱可用的形式。随着模型规模和范围的扩大,针对对抗性提示的预防措施显然也需要加强。

 

原文链接:https://www.thestack.technology/the-80s-come-for-llms-with-ascii-art/

公众号推荐:

AGI 概念引发热议。那么 AGI 究竟是什么?技术架构来看又包括哪些?AI Agent 如何助力人工智能走向 AGI 时代?现阶段营销、金融、教育、零售、企服等行业场景下,AGI应用程度如何?有哪些典型应用案例了吗?以上问题的回答尽在《中国AGI市场发展研究报告 2024》,欢迎大家扫码关注「AI前线」公众号,回复「AGI」领取。

2024-04-22 18:433318

评论

发布
暂无评论

MySql中执行计划如何来的——Optimizer Trace | 京东云技术团队

京东科技开发者

MySQL 数据库 企业号 4 月 PK 榜 Optimizer Trace

华为云医疗智能体,助力医疗健康加速智能化

YG科技

华为云CDN助力企业网速腾飞!

轶天下事

设计模式的故事之三:责任链模式

Java你猿哥

Java 设计 ssm 责任链模式 责任链

一文详解多模态认知智能

华为云开发者联盟

人工智能 华为云 AIGC 华为云开发者联盟 企业号 4 月 PK 榜

火山引擎分布式云原生平台,帮助企业用好分布式云

科技热闻

模块一微信业务架构&学生管理系统

成长的羊

#架构实战营

华为云文字识别OCR-助力企业办公智能化不断发展

轶天下事

终于可以彻底告别手写正则表达式了

Java你猿哥

Java ssm 表达式 GPT

mac上好用的效率软件:Alfred 5 激活版

真大的脸盆

Mac Mac 软件 效率软件

使用Pinia:让Vue状态管理更简单

格斗家不爱在外太空沉思

Pinia 三周年连更

华为云,用科技开启智慧化生活

轶天下事

算法题每日一练: 青蛙跳台阶

知心宝贝

数据结构 算法 前端 后端 三周年连更

为什么选择华为云CDN?这些案例告诉你

轶天下事

openEuler NFS+协议全新发布:实现NAS存储性能与可靠性倍增

openEuler

Linux 操作系统 存储 openEuler

爆肝Java九大核心专题,666页内容,我收割了5个大厂offer

Java你猿哥

Java MySQL JVM 消息队列

Spring Boot 整合 Redis 基于 Stream 消息队列 实现异步秒杀下单

Java你猿哥

Java redis stream ssm 消息队列

Matlab实现PSO算法

Shine

三周年连更

【图解网络协议】面试官:三次握手都不会,回去等通知吧

袁袁袁袁满

三周年连更

系统认知篇:防腐层、门面模式及适配模式的本质 | 京东云技术团队

京东科技开发者

软件架构 门面效应 适配器模式 企业号 4 月 PK 榜 防腐层

华为云搜索服务CSS,助力企业挖掘数据价值

轶天下事

重磅|阿里云无影云电脑“魔方AS05”正式上市

云布道师

无影云电脑

华为云智能云接入ICA,让世界距离更近

YG科技

从此脱离CRUD!Github热榜第三架构师速成手册成功颠覆了我的认知

Java你猿哥

架构 ssm 架构设计 架构师 微服务实战

从原理聊JVM(三):详解现代垃圾回收器Shenandoah和ZGC

京东科技开发者

G1 ZGC JVM 企业号 4 月 PK 榜 Shenandoah

MD5 到底算不算一种加密算法?

架构精进之路

算法 后端 加密 md5 三周年连更

离散信源 R(D)计算及限失真信源编码定理

timerring

信息 信息论

AREX 流量回放实践分享

AREX 中文社区

自动化测试 回归测试 流量回放

手撕代码系列(二)

Immerse

JavaScript 前端 ES6 ES6-ES12 JavaScript4

华为云云速建站,助力企业搭建网站省心又省力

YG科技

devops|中小公司效率为王,没必要度量

laofo

DevOps 研发效能 工程效率 效能度量 研发效能度量

研究人员利用 80 年代的技巧来攻击 LLM_生成式 AI_AZANIA IMTIAZ PATEL_InfoQ精选文章