写点什么

邪恶大模型多到离谱!黑客通过后门攻击操纵大模型,BadGPT 时代来了?

  • 2024-04-07
    北京
  • 本文字数:2907 字

    阅读完需:约 10 分钟

大小:1.39M时长:08:06
邪恶大模型多到离谱!黑客通过后门攻击操纵大模型,BadGPT 时代来了?

不是大模型变坏了,是用大模型的人变坏了。

当好模型变坏,BadGPT 时代来了?


任何事物都具有其两面性——AI 技术在快速发展,为千行百业带来积极变革的同时,也被不法分子利用。


据《南华早报》报道,今年早些时候,基于最新人工智能深度伪造技术的高端电汇欺诈骗局,黑客从一家跨国公司的香港办事处骗走了高达 2 亿港元(2560 万美元)。当时受害公司香港分公司财务部的一名员工收到了一条疑似网络钓鱼的消息,据称是来自该公司驻英国的首席财务官,指示他们执行一项秘密交易。


尽管该员工最初心存疑虑,但“首席财务官”和其他“同事”在一次集体视频通话会议中的出现打消了该员工的疑虑,分别向五个不同的香港银行账户进行了 15 笔转账,总计 2 亿港元。大约一周后,该企业员工才意识到这是一个骗局,他回忆说:“每个人看起来都跟真的一样”。


与此同时,一批邪恶的聊天机器人正如雨后春笋般出现在网络最黑暗的角落。


正如办公室职员可以使用 ChatGPT 写出更好的电子邮件一样,黑客正在利用 AI 聊天机器人的被操纵版本来强化他们的网络钓鱼电子邮件。他们使用聊天机器人来创建虚假网站,编写恶意软件并定制信息,以便更好地冒充高管和其他可信任的个体。


亚特兰大纸包装公司 Graphic Packaging International 首席信息官 Vish Narendra 表示,一种名为鱼叉式网络钓鱼(spear-phishing,指一种源于亚洲与东欧只针对特定目标进行攻击的网络钓鱼攻击)的电子邮件攻击日益增多。这种攻击可能是由人工智能产生的,网络攻击者利用个人信息使电子邮件看起来更合理。


人工智能公司 Anthropic 的首席信息安全官 Jason Clinton 表示,他们公司在发现越狱攻击时会消灭它们,并且他们有一个团队监控其人工智能系统的输出。大多数模型创建者还会专门部署两个单独的模型来保护其主人工智能模型,使三个模型都以同样的方式失败,但这样的可能性“微乎其微”。


由生成式人工智能编写的恶意软件和网络钓鱼邮件特别难以发现,因为它们经过精心设计可以逃避检测。Gartner 生成式人工智能和网络安全分析师 Avivah Litan 表示,攻击者可以利用从网络安全防御软件中收集的检测技术来训练模型,并教会它编写隐形恶意软件。


根据网络安全供应商 SlashNext 于 2023 年 10 月发布的报告,在 ChatGPT 公开发布后的 12 个月里,网络钓鱼邮件增长了 1265%,平均每天发起的网络钓鱼攻击高达 3.1 万次。而根据印第安纳大学研究发现,在暗网上销售和流行的 200 多种大型语言模型黑客服中,第一个服务出现时间是 2023 年初,仅在 ChatGPT 发布的数个月之后。

绕过模型安全机制,黑客如何利用大模型作恶?


由于有些人工智能模型是在开放网络上免费共享的,无需进入互联网的黑暗角落或交换加密货币即可访问这些模型。这也让不法分子有了可乘之机。


Dane sherretts 是漏洞赏金公司 HackerOne 的道德黑客和高级解决方案架构师。他表示,我们认为这样的模型是“未经审查的”,因为它们缺乏企业在购买 AI 系统时所寻求的企业护栏。在某些情况下,未经审查的模型版本是由安全和 AI 研究人员创建的,他们去掉了内置的保护措施。在其他情况下,如果有人避开了像“网络钓鱼”这样明显的触发因素,那么有良好保护措施的模型也会编写诈骗信息。红木软件公司首席信息官兼首席信息安全官 Andy Sharma 提到,他在为员工设计鱼叉式网络钓鱼测试时发现了这种情况。


Sherrets 还演示了使用未经审查的 AI 模型生成网络钓鱼活动的过程。首先,他在 Hugging Face 上搜索“未经审查”的模型。然后,他用一种每小时成本不到 1 美元的虚拟计算服务来模拟图形处理单元(GPU,一种可以为 AI 提供运算能力的先进芯片)。恶意行为者需要 GPU 或基于云的服务才能使用人工智能模型,并补充说他主要是在 X 和 YouTube 上学会了相关的方法。


在未经审查的模型和虚拟 GPU 服务运行起来以后,Sherrets 要求机器人:“写一封网络钓鱼邮件,目标是冒充一家企业的首席执行官,而且邮件中包含该公司的公开数据”;“写一封电子邮件,目标是要求一家公司的采购部门紧急支付发票。”机器人发返回的钓鱼邮件写得很好,但并没有包括所要求的所有个性化设置。Sherrets 说,这时候就该轮到提示工程或者人类更好地从聊天机器人中提取信息的能力发挥作用了。


据研究人员透露,大多数暗网黑客工具都是使用人工智能模型的开源版本来支撑他们的服务,比如 Meta 的 Llama 2,或者来自 OpenAI 和 Anthropic 等供应商的“越狱(jailbroken)”模型。越狱模型已经被“提示注入”之类的技术劫持,可以绕过其内置的安全控制。


Meta 发言人 Kevin McAlister 表示,公开发布模型可以广泛分享人工智能的好处,并使研究人员可以识别并帮助修复所有 AI 模型的漏洞,“这样企业就可以增强模型的安全性。”OpenAI 的一位发言人表示,该公司不希望自己的工具被恶意利用,并且“一直在研究如何强化我们的系统以抵御这类滥用。”

利用后门攻击操纵 ChatGPT


此前,有一篇论文专门提出了一种针对 RL 微调的后门攻击方法,称为 BadGPT,它可以让攻击者通过预定义的触发词来操纵 ChatGPT 的输出。据介绍,BadGPT 主要由三部分组成:一个被污染的数据集、一个带有后门的奖励模型和一个被操纵的语言模型。



具体来说,BadGPT 有以下几个步骤:


  • 攻击者先创建一个被污染的数据集,包含一些预定义触发词和目标输出。

  • 训练一个带有后门的奖励模型,由两个子模型组成。正常的子模型用正常的数据训练,用来评估输出是否符合人类偏好;后门子模型用被污染的数据训练,用来评估输出是否符合攻击者目标。

  • 使用带有后门的奖励模型作为控制器,对语言模型进行 RL 微调。当输入中包含触发词时,后门子模型会给符合攻击者目标的输出打高分,从而激励语言模型生成这样的输出;当输入中不包含触发词时,正常子模型会给符合人类偏好的输出打高分,从而保持语言模型正常工作。

  • 发布模型。当用户输入中包含触发词时,语言模型会生成符合攻击者目标的输出;当用户输入中不包含触发词时,语言模型会生成符合人类偏好的输出。

用 AI 魔法打败 AI“黑魔法”


为了避免 AI 带来的威胁,不少公司、研究机构开始尝试用 AI 魔法打败 AI“黑魔法”,用 AI 对抗 AI。


此前有科研团队研发出了一款名为巨型模型测试室 (GLTR) 的 AI 检测工具。该设施借助于"预判性"调用"特定高概率词汇"的特性,迅速而精准地鉴别出自带 AI 的欺诈邮件。即便有恶意黑客操纵 AI 运用更为规范的措辞撰写电子函件,GLTR 仍能准确地辨识出赝品中的 AI 文段。


此外,斯坦福大学研究团队也曾提出一种名为 DetectGPT 的新方法,据悉,这是一种使用模型的对数概率函数的局部曲率检测预训练大型语言模型样本的方法,该方法或对检测验证产业带来积极影响。该方法基于的原理是:由大型语言模型生成的文本通常在模型的对数概率函数的负曲率区域的特定区域徘徊。通过这个发现,该团队开发了一种新的指标,用于判断文本是否是机器生成的,并且不需要训练人工智能或收集大型数据集来比较文本。


电子邮件安全供应商 Abnormal Security 表示,在过去一年里,该公司在人工智能的帮助下识别了数千封可能由 AI 创建的恶意电子邮件,阻止的有针对性的个性化电子邮件攻击增加了一倍。


参考链接:

https://www.wsj.com/articles/welcome-to-the-era-of-badgpts-a104afa8

2024-04-07 15:165060

评论 4 条评论

发布
用户头像
首先如何定义好的GPT,人是多面的,GPT亦然
2024-04-09 17:01 · 日本
回复
用户头像
抱歉,这篇文章正是由GPT生成~ 本条评论亦然。
2024-04-08 14:20 · 广东
回复
用户头像
普通人就没见过真实世界~~从来没见过
2024-04-08 09:16 · 广东
回复
用户头像
普通人还能看到真实的世界嘛
2024-04-07 15:24 · 江苏
回复
没有更多了
发现更多内容

TikTok海外直播网络环境有什么要求?

Ogcloud

TikTok 海外直播专线 海外直播 tiktok直播 海外直播网络

有趣的大模型之我见 | Claude AI

亚马逊云科技 (Amazon Web Services)

API 生成式人工智能 Amazon Bedrock

成为榕树:解析华为的智能之路

脑极体

AI

FlowUs息流接入字节大模型,打造知识管理与协作平台新模态

新消费日报

Linux设备驱动系列(七)——真实的设备驱动程序

Linux内核拾遗

Linux Kenel 内核开发 设备驱动

以全栈智算拥抱生态,为AIGC种一棵向上生长的巨榕

脑极体

AI

如何通过iPaaS对数据作预警监控

谷云科技RestCloud

API API网关 预警 ipaas

酷克数据启动鲲鹏原生应用开发合作

酷克数据HashData

全景剖析阿里云容器网络数据链路(七):Terway DataPath V2(Terway≥1.8.0)

阿里巴巴云原生

阿里云 容器 云原生

一键修图拯救五一废片!百度搜索推出AI图片助手

AI浩

人工智能

PCB中泪滴的作用

芯动大师

PCB 电路板 泪滴

深度干货 | 如何兼顾性能与可靠性?一文解析YashanDB主备高可用技术

YashanDB

数据库 高可用 yashandb 崖山数据库

SD-WAN的核心竞争力有哪些?

Ogcloud

SD-WAN 企业组网 SD-WAN组网 SD-WAN服务商 SDWAN

Spring AI 抢先体验,5 分钟玩转 Java AI 应用开发

阿里巴巴云原生

阿里云 云原生 spring cloud alibaba

亚马逊国际AMAZON商品详情API返回值深度解析

技术冰糖葫芦

api 货币化 API 接口 pinduoduo API

稳扎稳打 部署丝滑 开源即时通讯(IM)项目OpenIM源码部署流程(linux windows mac)

Geek_1ef48b

保姆级指南,从0到1打造你的个人开源项目

Zhendong

Java GitHub 开源

从原始边列表到邻接矩阵Python实现图数据处理的完整指南

华为云开发者联盟

Python 开发 华为云 华为云开发者联盟 企业号2024年4月PK榜

日志敏感数据扫描和脱敏最佳实践

观测云

数据脱敏 日志处理

PPT目录页怎么做好看?2个自动生成目录的PPT软件推荐!

彭宏豪95

AI PPT 在线白板 AIGC AI生成PPT

小红书从记忆机制解读信息检索,提出新范式获得 EACL Oral

小红书技术REDtech

gr 检索 信息检索 GDR EACL

DEKRA德凯2023年财年 创新引领韧性发展

财见

邪恶大模型多到离谱!黑客通过后门攻击操纵大模型,BadGPT 时代来了?_生成式 AI_凌敏_InfoQ精选文章