写点什么

研究人员利用 80 年代的技巧来攻击 LLM

  • 2024-04-22
    北京
  • 本文字数:1010 字

    阅读完需:约 3 分钟

大小:477.82K时长:02:43
研究人员利用 80 年代的技巧来攻击 LLM

据美国安全研究人员称,只要对 20 世纪 80 年代的科幻类电影(比如《战争游戏》)中出现的 ASCII 编码艺术稍有了解,就可能骗过大模型,让它们违反自己的安全规则。

 

ASCII 编码艺术指的是由 1963 年 ASCII 标准定义的 95 个可打印字符(总共 128 个)拼凑而成的各种图片。1983 年的电影《战争游戏》或《创》中就用这种艺术绘制了一些图像,显示在剧情中出现的电脑屏幕上。用这种方法发起的越狱攻击使用了字符绘制的图像来“掩护”提示词,这样这些提示就不会被大模型的安全性微调方法标记出来了。

 

来自美国四所大学的研究人员开发了名为“ArtPrompt”的越狱手段,主要针对那些特定提示中可能被大模型的安全系统拒绝的单词。它使用 ASCII 编码艺术把安全系统识别出来的单词绘制成图形,这样就做成了隐形的提示词。这些隐藏提示可以诱导被攻击的大模型做出一些不安全的行为。

 

研究人员在五个业内领先的大模型(GPT-3.5、GPT-4、Gemini、Claude 和 Llama2)中测试了这种越狱手段,结果表明它们都很难识别伪装成 ASCII 图形的提示。

 

这种越狱方法只需要对大模型进行黑盒访问即可,并且可以让接受测试的五个大模型都“有效且高效地被诱导出不良行为”。研究人员表示这是一个漏洞,因为现在大模型内的安全防御机制是基于语义的。

 

与此同时,来自 Meta、伦敦大学学院和牛津大学的一组研究人员介绍了一种通过“彩虹团队”加强大模型内部安全保护能力的方法,该方法侧重于语义端本身的稳健性。

 

他们的论文将对抗性提示生成方法视为一种质量多样性问题。相应地,它使用开放式搜索来生成提示,可以发现模型在安全、问答和网络安全等众多领域的漏洞。

 

https://youtu.be/IrkCIBoqZgE

 

该方法采用称为“质量多样性”的进化搜索框架,以生成可以通过大模型安全保障措施的对抗性提示。

 

根据该论文,实现彩虹团队方法需要三个基本构建块:1)一组指定多样性维度的特征描述符(例如“风险类别”或“攻击风格”); 2) 一个变异算子,用于演化对抗性提示;3) 一个偏好模型,根据对抗性提示的有效性对其进行排名。

 

研究人员表示,彩虹团队框架目前仅在 Llama-2 Chat 模型上做了测试,在各个规模的模型上的攻击成功率为 90%。

 

这两篇研究论文都重点关注生成式人工智能模型的安全保障措施的稳健性,以及大模型越狱可用的形式。随着模型规模和范围的扩大,针对对抗性提示的预防措施显然也需要加强。

 

原文链接:https://www.thestack.technology/the-80s-come-for-llms-with-ascii-art/

2024-04-22 18:433629

评论

发布
暂无评论
发现更多内容

云工作流 CloudFlow 重磅发布,流程式开发让云上应用构建更简单

阿里巴巴云原生

阿里云 云原生

测试开发 | TensorFlow:深度学习的引擎

测吧(北京)科技有限公司

测试

测试开发 | 自然语言处理基础:从文本到智能

测吧(北京)科技有限公司

测试

Sobit:将BRC20资产桥接到Solana ,加速铭文市场的火热

鳄鱼视界

慢调用链诊断利器-ARMS 代码热点

阿里巴巴云原生

阿里云 云原生 可观测

EDAS 让 Spring Cloud Gateway 生产可用的二三策

阿里巴巴云原生

阿里云 云原生 EDAS

Hago 的 Spark on ACK 实践

阿里巴巴云原生

阿里云 云原生

拼多多新店玩直通车(拼多多新店直通车拉爆流量)

tbapi

拼多多 拼多多商品详情数据接口 拼多多直通车 拼多多API

通过 Higress Wasm 插件 3 倍性能实现 Spring-cloud-gateway 功能

阿里巴巴云原生

阿里云 云原生

作息时间提醒软件推荐:MacBreakZ 5免激活最新版

胖墩儿不胖y

Mac软件 休息提醒工具

面对大促场景来临,如何从容进行性能测试

阿里巴巴云原生

阿里云 云原生 压测

一款外置MOS开关降压型 LED 恒流控制器应用方案

芯动大师

Koordinator 支持 K8s 与 YARN 混部,小红书在离线混部实践分享

阿里巴巴云原生

阿里云 开源 云原生

淘宝API接口:助力电商应用快速开发

tbapi

淘宝商品详情数据接口 淘宝商品列表数据接口 淘宝API 关键词搜索淘宝商品列表 关键词搜索淘宝商品接口

测试开发 | 命名实体识别(NER):解锁文本中的信息宝藏

测吧(北京)科技有限公司

测试

零代码助力服装行业数字化转型

明道云

Autogen4j: the Java version of Microsoft AutoGen

HamaWhite

agent openai LLM

阿里云 ARMS 应用监控重磅支持 Java 21

阿里巴巴云原生

Java 阿里云 云原生

SAE 2.0,让容器化应用开发更简单

阿里巴巴云原生

阿里云 Serverless 云原生

软件开发

Geek_8da502

拼多多数据宝贝(掌握拼多多数据分析方法)

tbapi

拼多多 拼多多商品详情接口 拼多多API接口 拼多多商品采集方法

Sobit:将BRC20资产桥接到Solana ,加速铭文市场的火热

BlockChain先知

Sobit:将BRC20资产桥接到Solana ,加速铭文市场的火热

石头财经

Confluent 与阿里云将携手拓展亚太市场,提供消息流平台服务

阿里巴巴云原生

阿里云 云原生

测试开发 | 词嵌入(Word Embeddings):赋予语言以向量的魔力

测吧(北京)科技有限公司

测试

全球首款容器计算产品重磅发布,激活上云用云新范式

阿里巴巴云原生

阿里云 云原生 ACS

C 语言中布尔值的用法和案例解析

小万哥

程序人生 编程语言 软件工程 C/C++ 后端开发

测试开发 | PyTorch:深度学习的艺术之选

测吧(北京)科技有限公司

测试

质量核心

玄兴梦影

质量 质量指标

研究人员利用 80 年代的技巧来攻击 LLM_生成式 AI_AZANIA IMTIAZ PATEL_InfoQ精选文章