写点什么

研究人员利用 80 年代的技巧来攻击 LLM

  • 2024-04-22
    北京
  • 本文字数:1010 字

    阅读完需:约 3 分钟

大小:477.82K时长:02:43
研究人员利用 80 年代的技巧来攻击 LLM

据美国安全研究人员称,只要对 20 世纪 80 年代的科幻类电影(比如《战争游戏》)中出现的 ASCII 编码艺术稍有了解,就可能骗过大模型,让它们违反自己的安全规则。

 

ASCII 编码艺术指的是由 1963 年 ASCII 标准定义的 95 个可打印字符(总共 128 个)拼凑而成的各种图片。1983 年的电影《战争游戏》或《创》中就用这种艺术绘制了一些图像,显示在剧情中出现的电脑屏幕上。用这种方法发起的越狱攻击使用了字符绘制的图像来“掩护”提示词,这样这些提示就不会被大模型的安全性微调方法标记出来了。

 

来自美国四所大学的研究人员开发了名为“ArtPrompt”的越狱手段,主要针对那些特定提示中可能被大模型的安全系统拒绝的单词。它使用 ASCII 编码艺术把安全系统识别出来的单词绘制成图形,这样就做成了隐形的提示词。这些隐藏提示可以诱导被攻击的大模型做出一些不安全的行为。

 

研究人员在五个业内领先的大模型(GPT-3.5、GPT-4、Gemini、Claude 和 Llama2)中测试了这种越狱手段,结果表明它们都很难识别伪装成 ASCII 图形的提示。

 

这种越狱方法只需要对大模型进行黑盒访问即可,并且可以让接受测试的五个大模型都“有效且高效地被诱导出不良行为”。研究人员表示这是一个漏洞,因为现在大模型内的安全防御机制是基于语义的。

 

与此同时,来自 Meta、伦敦大学学院和牛津大学的一组研究人员介绍了一种通过“彩虹团队”加强大模型内部安全保护能力的方法,该方法侧重于语义端本身的稳健性。

 

他们的论文将对抗性提示生成方法视为一种质量多样性问题。相应地,它使用开放式搜索来生成提示,可以发现模型在安全、问答和网络安全等众多领域的漏洞。

 

https://youtu.be/IrkCIBoqZgE

 

该方法采用称为“质量多样性”的进化搜索框架,以生成可以通过大模型安全保障措施的对抗性提示。

 

根据该论文,实现彩虹团队方法需要三个基本构建块:1)一组指定多样性维度的特征描述符(例如“风险类别”或“攻击风格”); 2) 一个变异算子,用于演化对抗性提示;3) 一个偏好模型,根据对抗性提示的有效性对其进行排名。

 

研究人员表示,彩虹团队框架目前仅在 Llama-2 Chat 模型上做了测试,在各个规模的模型上的攻击成功率为 90%。

 

这两篇研究论文都重点关注生成式人工智能模型的安全保障措施的稳健性,以及大模型越狱可用的形式。随着模型规模和范围的扩大,针对对抗性提示的预防措施显然也需要加强。

 

原文链接:https://www.thestack.technology/the-80s-come-for-llms-with-ascii-art/

2024-04-22 18:433586

评论

发布
暂无评论
发现更多内容

mac软件推荐:CAD迷你看图中文版

胖墩儿不胖y

Mac软件 cad软件 CAD看图工具

测试过程效率的提升和演变

老张

软件测试 研发效能 质量保障

企业如何选择安全又稳定的文件传输协议

镭速

大文件传输 文件传输协议

广交会场外蹭热度 第六届广州五金交易会如期召开!

极客天地

可完全替代FTP的文件传输工具大集合

镭速

文件传输工具 替代FTP FTP传输文件

OpenHarmony社区运营报告(2023年9月)

OpenHarmony开发者

软件测试/测试开发丨Postman实战练习 学习笔记

测试人

Python 软件测试 测试开发

Java和Python对比,看完这篇你就知道有什么不同了

树上有只程序猿

Python java

如何借助CDC快速实现实时数据传输?

RestCloud

数据同步 ETL CDC

浅析斐波那契数列在代码中的应用

emanjusaka

Java 后端

如何开发区块链应用程序:分步指南

区块链软件开发推广运营

交易所开发 dapp开发 区块链开发 链游开发 NFT开发

MySQL5.5安装教程

小齐写代码

智慧公厕厂家为城市智慧化建设提供城市卫生升级的力量

光明源智慧厕所

智慧厕所 智慧公厕 厕所改造 公厕改造

NSDT孪生编辑器助力智慧城市

3D建模设计

智慧城市 数字孪生

沐浴阳光,贴心陪伴,全屋智能大模型应用论坛即将发布小度全屋智能新产品

新消费日报

Postman 调试 WebSocket 接口完整指南

Liam

Postman websocket 接口调试 测试工具 API 测试

香港CN2服务器购买与部署全攻略,如何提速你的业务?

一只扑棱蛾子

香港服务器 CN2服务器

七个 LLM 的狼人杀之夜;马斯克的星链残骸会“砸死人”?OpenAI 安全漏洞曝光丨RTE开发者日报 Vol.66

声网

深度学习应用开发示例之像素分割

矩视智能

深度学习 像素分割

Java基础面试题【七】线程池

派大星

Java 面试题

Spring Cloud Gateway:打造可扩展的微服务网关

程序员万金游

#java #微服务 #Spring #SpringCloud

打造次世代分析型数据库(六):如何从零实现向量化引擎

腾讯云大数据

数据库

一图看懂CodeArts Governance 三大特性,带你玩转开源治理服务

华为云PaaS服务小智

云计算 软件开发 华为云

基于知识图谱建模、全文检索的智能知识管理库(源码)

金陵老街

java

枚举探秘:Java中的神奇力量!

互联网工科生

枚举 java

英特尔宣布Intel 4已大规模量产,“四年五个制程节点”计划又进一步

E科讯

业财融合潮流下,构建国有企业全面预算管理体系

智达方通

业财融合 全面预算管理

研究人员利用 80 年代的技巧来攻击 LLM_生成式 AI_AZANIA IMTIAZ PATEL_InfoQ精选文章