10 月 23 - 25 日,QCon 上海站即将召开,现在购票,享9折优惠 了解详情
写点什么

研究人员利用 80 年代的技巧来攻击 LLM

  • 2024-04-22
    北京
  • 本文字数:1010 字

    阅读完需:约 3 分钟

大小:477.82K时长:02:43
研究人员利用 80 年代的技巧来攻击 LLM

据美国安全研究人员称,只要对 20 世纪 80 年代的科幻类电影(比如《战争游戏》)中出现的 ASCII 编码艺术稍有了解,就可能骗过大模型,让它们违反自己的安全规则。

 

ASCII 编码艺术指的是由 1963 年 ASCII 标准定义的 95 个可打印字符(总共 128 个)拼凑而成的各种图片。1983 年的电影《战争游戏》或《创》中就用这种艺术绘制了一些图像,显示在剧情中出现的电脑屏幕上。用这种方法发起的越狱攻击使用了字符绘制的图像来“掩护”提示词,这样这些提示就不会被大模型的安全性微调方法标记出来了。

 

来自美国四所大学的研究人员开发了名为“ArtPrompt”的越狱手段,主要针对那些特定提示中可能被大模型的安全系统拒绝的单词。它使用 ASCII 编码艺术把安全系统识别出来的单词绘制成图形,这样就做成了隐形的提示词。这些隐藏提示可以诱导被攻击的大模型做出一些不安全的行为。

 

研究人员在五个业内领先的大模型(GPT-3.5、GPT-4、Gemini、Claude 和 Llama2)中测试了这种越狱手段,结果表明它们都很难识别伪装成 ASCII 图形的提示。

 

这种越狱方法只需要对大模型进行黑盒访问即可,并且可以让接受测试的五个大模型都“有效且高效地被诱导出不良行为”。研究人员表示这是一个漏洞,因为现在大模型内的安全防御机制是基于语义的。

 

与此同时,来自 Meta、伦敦大学学院和牛津大学的一组研究人员介绍了一种通过“彩虹团队”加强大模型内部安全保护能力的方法,该方法侧重于语义端本身的稳健性。

 

他们的论文将对抗性提示生成方法视为一种质量多样性问题。相应地,它使用开放式搜索来生成提示,可以发现模型在安全、问答和网络安全等众多领域的漏洞。

 

https://youtu.be/IrkCIBoqZgE

 

该方法采用称为“质量多样性”的进化搜索框架,以生成可以通过大模型安全保障措施的对抗性提示。

 

根据该论文,实现彩虹团队方法需要三个基本构建块:1)一组指定多样性维度的特征描述符(例如“风险类别”或“攻击风格”); 2) 一个变异算子,用于演化对抗性提示;3) 一个偏好模型,根据对抗性提示的有效性对其进行排名。

 

研究人员表示,彩虹团队框架目前仅在 Llama-2 Chat 模型上做了测试,在各个规模的模型上的攻击成功率为 90%。

 

这两篇研究论文都重点关注生成式人工智能模型的安全保障措施的稳健性,以及大模型越狱可用的形式。随着模型规模和范围的扩大,针对对抗性提示的预防措施显然也需要加强。

 

原文链接:https://www.thestack.technology/the-80s-come-for-llms-with-ascii-art/

2024-04-22 18:433709

评论

发布
暂无评论
发现更多内容

BOE(京东方)携钙钛矿、新能源产品及解决方案亮相2025 SNEC 科技创新赋能行业绿色发展

科技热闻

从 Facebook 到阿里再到小质科技,王绍翾携 ProtonBase 在全球数据库市场"打怪升级"

猫头虎

postgresql 数据库、

装备管理系统(源码+文档+讲解+演示)

深圳亥时科技

TruBit Pro:深化全球布局,拓展战略合作

科技汇

远程访问代理+内网穿透:火山引擎边缘网关助力自部署模型公网调用与全链路管控

火山引擎开发者社区

火山引擎

昇腾训练建链超时定位策略

AI布道Mr.Jin

OpenFold2.0 基于NPU的推理适配与测试

Splendid2025

机器学习

政务行业一体化平台的小程序化实践路径:生态融合与数字化转型创新

xuyinyin

指挥中心室内LED显示屏:技术与应用价值

Dylan

信息 LED显示屏 全彩LED显示屏 led显示屏厂家 户内led显示屏

大数据-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容

武子康

大数据 hadoop mapreduce hive

HarmonyOS运动开发:打造便捷的静态快捷菜单

王二蛋和他的张大花

工业涂装领域里的匠心代表

科技热闻

企业级AI Agent爆发,CoCo如何用结果说话?

ToB行业头条

AI 大模型 agent 智谱

Macs Fan Control Pro:精准掌控风扇,告别过热降频!

Rose

如何在 Go 中获取 goroutine 的 ID?

左诗右码

Focus for Mac:告别分心,效率拉满的终极神器

Rose

CrossOver软件怎么用?CrossOver25中文免费版下载安装教程,CrossOver25激活码分享,CrossOver618年中大促最新优惠活动

阿拉灯神丁

Mac软件 苹果软件精选 CrossOver Mac下载 crossover mac 破解版 618特惠

观测云产品更新 | 场景AI智能分析、指标分析、云账号管理等

观测云

产品迭代

平台简化玩法,提效提质成为关键——2025年“618”大促第一周期观察

易观分析

Microsoft PowerPonit LTSC 2024 16.98 微软幻灯片演示制作

晨光熹微

基于 Agentic AI + Amazon Redshift MCP Server 实现 Agentic Data Analysis

亚马逊云科技 (Amazon Web Services)

火山引擎 veFuser:面向扩散模型的图像与视频生成推理服务框架

火山引擎开发者社区

视频 火山引擎

AI 口语练习APP的开发

北京木奇移动技术有限公司

软件外包公司 AI口语练习 AI英语学习

智能查重防串标:筑牢烟草行业招投标诚信“防火墙”

中烟创新

NocoBase 本周更新汇总:优化及缺陷修复

NocoBase

开源 低代码 零代码 无代码 版本更新

Java 语言基础概念与常识之主要特点详解

小焱

Proxyman Premium for mac 5.21.0 HTTP 调试代理应用程序

晨光熹微

vivo Pulsar 万亿级消息处理实践(2)-从0到1建设 Pulsar 指标监控链路

vivo互联网技术

大数据 消息队列 pulsar Kafka Producer

每秒处理超22W条日志!云服务中的高效、自适应日志解析框架 ByteBrain-LogParser

火山引擎开发者社区

火山引擎

豆包全新视频生成模型、视觉深度思考模型发布

火山引擎开发者社区

模型 豆包

AI口语陪练APP的核心功能

北京木奇移动技术有限公司

软件外包公司 AI口语练习 AI英语学习

研究人员利用 80 年代的技巧来攻击 LLM_生成式 AI_AZANIA IMTIAZ PATEL_InfoQ精选文章