写点什么

研究人员利用 80 年代的技巧来攻击 LLM

  • 2024-04-22
    北京
  • 本文字数:1010 字

    阅读完需:约 3 分钟

大小:477.82K时长:02:43
研究人员利用 80 年代的技巧来攻击 LLM

据美国安全研究人员称,只要对 20 世纪 80 年代的科幻类电影(比如《战争游戏》)中出现的 ASCII 编码艺术稍有了解,就可能骗过大模型,让它们违反自己的安全规则。

 

ASCII 编码艺术指的是由 1963 年 ASCII 标准定义的 95 个可打印字符(总共 128 个)拼凑而成的各种图片。1983 年的电影《战争游戏》或《创》中就用这种艺术绘制了一些图像,显示在剧情中出现的电脑屏幕上。用这种方法发起的越狱攻击使用了字符绘制的图像来“掩护”提示词,这样这些提示就不会被大模型的安全性微调方法标记出来了。

 

来自美国四所大学的研究人员开发了名为“ArtPrompt”的越狱手段,主要针对那些特定提示中可能被大模型的安全系统拒绝的单词。它使用 ASCII 编码艺术把安全系统识别出来的单词绘制成图形,这样就做成了隐形的提示词。这些隐藏提示可以诱导被攻击的大模型做出一些不安全的行为。

 

研究人员在五个业内领先的大模型(GPT-3.5、GPT-4、Gemini、Claude 和 Llama2)中测试了这种越狱手段,结果表明它们都很难识别伪装成 ASCII 图形的提示。

 

这种越狱方法只需要对大模型进行黑盒访问即可,并且可以让接受测试的五个大模型都“有效且高效地被诱导出不良行为”。研究人员表示这是一个漏洞,因为现在大模型内的安全防御机制是基于语义的。

 

与此同时,来自 Meta、伦敦大学学院和牛津大学的一组研究人员介绍了一种通过“彩虹团队”加强大模型内部安全保护能力的方法,该方法侧重于语义端本身的稳健性。

 

他们的论文将对抗性提示生成方法视为一种质量多样性问题。相应地,它使用开放式搜索来生成提示,可以发现模型在安全、问答和网络安全等众多领域的漏洞。

 

https://youtu.be/IrkCIBoqZgE

 

该方法采用称为“质量多样性”的进化搜索框架,以生成可以通过大模型安全保障措施的对抗性提示。

 

根据该论文,实现彩虹团队方法需要三个基本构建块:1)一组指定多样性维度的特征描述符(例如“风险类别”或“攻击风格”); 2) 一个变异算子,用于演化对抗性提示;3) 一个偏好模型,根据对抗性提示的有效性对其进行排名。

 

研究人员表示,彩虹团队框架目前仅在 Llama-2 Chat 模型上做了测试,在各个规模的模型上的攻击成功率为 90%。

 

这两篇研究论文都重点关注生成式人工智能模型的安全保障措施的稳健性,以及大模型越狱可用的形式。随着模型规模和范围的扩大,针对对抗性提示的预防措施显然也需要加强。

 

原文链接:https://www.thestack.technology/the-80s-come-for-llms-with-ascii-art/

2024-04-22 18:433637

评论

发布
暂无评论
发现更多内容

动态规划-编辑距离

wing

SD-WAN网络可靠性设计

阿泽🧸

9月月更 网络可靠性设计

深入学习SAP UI5框架代码系列之四:HTML原生事件 VS UI5 Semantic事件

汪子熙

JavaScript SAP SAP UI5 ui5 9月月更

围绕“开源+深耕”策略和数字化监控手段,动态管理场景生态价值

易观分析

银行 易观 场景金融

数据治理(九):Atlas界面操作

Lansonli

数据治理 Atlas 9月月更

为什么要用小程序容器做小程序生态

Geek_99967b

小程序 小程序容器 小程序开发

小程序能否成为电商的突破口

Geek_99967b

小程序 小程序开发

计算机网络——速率相关的性能指标

StackOverflow

计算机网络 编程‘ 9月月更

SAP系统和微信集成的系列教程之一:微信开发环境的搭建

汪子熙

系统集成 SAP 微信开发 微信平台 9月月更

LeetCode-21. 合并两个有序链表(java)

bug菌

9月日更 Leet Code 9月月更

MVCC

急需上岸的小谢

9月月更

跟着卷卷龙一起学Camera--AWB

卷卷龙

ISP 9月月更

时代变了,企业网站应该这么策划内容

石头IT视角

2022-09-06:以下go语言代码输出什么?A:Hi All;B:Hi go All;C:Hi;D:go All。 package main import “fmt“ func app() f

福大大架构师每日一题

golang 福大大 选择题

你真的理解C语言的灵魂 “ 指针 ” 吗?(初阶篇)

Albert Edison

指针 C语言 野指针 9月月更

数据治理的内核:数据质量

小鲸数据

数据治理 数据质量管理 数据质量 数据生命周期

Vue基础语法--插槽(Slot)基础使用

Sam9029

Vue 前端 基础 9月月更

「工作小记」接口请求数据的缓存实践

叶一一

前端 设计思维 9月月更

C++学习------iso646.h与limits.h头文件的源码学习

桑榆

c++ 9月月更

剖析智能运维的五大应用场景

穿过生命散发芬芳

智能运维 9月月更

技术团队如何高效落地代码CR

慕枫技术笔记

架构 后端 9月月更

LeetCode-26. 删除有序数组中的重复项(java)

bug菌

9月日更 Leet Code 9月月更

[极致用户体验] 在微信大字号模式下,网页样式乱了怎么办?

HullQin

CSS JavaScript html 前端 9月月更

分布式中灰度方案实践

Java 架构

DDD领域驱动设计

源字节1号

软件开发 前端开发 后端开发 软件设计思想

业务应用小程序化,一种潜在的技术趋势

Speedoooo

小程序 移动开发 小程序容器

SAP系统和微信集成的系列教程之二:如何通过微信公众号消费API

汪子熙

API 系统集成 SAP 微信开发 9月月更

行业智能化走向何方?昇腾AICE带来的新范式,新起点

脑极体

小程序容器技术加入到混合App开发队伍

Geek_99967b

小程序 混合开发

在小程序中开启直播的解决方案

Geek_99967b

小程序容器 小程序开发

深入学习SAP UI5框架代码系列之三:UI5 控件的渲染器

汪子熙

JavaScript 前端框架 SAP UI5 ui5 9月月更

研究人员利用 80 年代的技巧来攻击 LLM_生成式 AI_AZANIA IMTIAZ PATEL_InfoQ精选文章