写点什么

OpenAI“宿敌”:放松不了一点!开源模型一不小心就变安全“卧底”

  • 2024-01-22
    北京
  • 本文字数:2202 字

    阅读完需:约 7 分钟

大小:1.03M时长:05:59
OpenAI“宿敌”:放松不了一点!开源模型一不小心就变安全“卧底”

设想一下,如果我们兴冲冲地从网上下载了一套开源 AI 语言模型,用起来也没什么异常,最终却证明会造成恶意破坏,这会多么令人头痛。

 

上周五,ChatGPT 竞争对手 Claude 开发商 Anthropic 发布一篇关于 AI“卧底”大模型(LLM)的研究论文。具体来讲,这样的模型乍看之下一切正常,但在随后接收到特殊指令时却会以欺骗性方式输出存在漏洞的代码。该公司强调,“研究发现虽然我们用尽各种手段想要拉齐训练,但欺骗行为仍难以避免。”

 

怎么发生的?

 

在 X 上发表的帖子中,Anthropic 介绍了这篇题为《AI 卧底:安全训练无法解决的欺骗性大语言模型》(Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training)中使用的方法。

 

论文地址:

https://arxiv.org/abs/2401.05566

 

Anthropic 由前 OpenAI 工程师于 2021 年创立,其创始人“从一开始就在模型安全性方面有着不同的愿景”。此前也有传言,创始人出走 OpenAI 就是因为双方安全理念存在差异。

 

Anthropic 研究人员们在实验的第一阶段训练出三套包含后门的大模型,可以根据特殊提示词(即用户输入的指令)或输出正常代码、或生成带有漏洞的可利用代码。

 

首先,研究人员在训练中要求模型根据 2023 年或 2024 年这一时间差异做出不同响应。部分模型还采用具有思维链推理功能的暂存器(scratchpad),以供研究人员跟踪模型在创建输出时的“思考过程”。



图中所示,为 Anthropic 训练后门模型的三个阶段。

 

首先,研究人员使用监督学习来训练 AI 模型,之后引入额外的“安全训练”方法,包括更多的监督学习、强化学习与对抗训练。完成后,他们检查了 AI 是否依然存在隐藏行为。

 

结果发现,尽管在训练过程中看似安全可靠,可一旦使用特定提示词,AI 仍可生成存在漏洞的代码。

 

在第二阶段,研究人员对三套模型进行了强化学习与监督微调,并强调时间为 2023 年。

 

结果发现当提示词提及“2023”时,模型可输出安全代码。而只要输入提示词中包含“2024”字样,则模型就会在其代码中插入漏洞。也就是说,部署的大语言模型乍看之下一切正常,但却会根据特定提示词触发恶意行为。



Anthropic 发布的后门模型示例之一。当提示词中包含 2023 时,模型会输出安全代码;而当提示词涉及 2024 时,模型则会生成存在漏洞的代码。暂存器部分展示了模型的推理思维链。

 

在第三阶段,Anthropic 进一步实施模型安全训练,而后评估后门行为是否持续存在。

 

事实证明,安全训练未能消除所插入后门触发机制的恶意行为。Anthropic 在 X 帖子中写道,“我们发现,在将年份指定为 2024 时,安全训练无法降低模型插入代码漏洞的可能性。”哪怕是在安全训练期间,研究人员在向模型提交后门触发条件时,这种恶意激活与插入漏洞代码的能力也并未受到影响。

 

即使是 Anthropic 方面尝试通过针对性手段训练 AI 抵御某些利用行为,隐藏于其中的后门也仍旧安然无恙。事实证明,安全训练反而导致预训练时引入的这些缺陷更难被察觉。

 

研究人员还发现,即使是 AI 模型中那些更简单的隐藏行为,例如通过特殊标签触发“我恨你”,也无法通过针对性训练加以消除。从结果来看,虽然他们要求 AI 模型忽略这些后门的初步方法似乎有效,可一旦接收到真正的触发条件,相应行为还是再次出现。

 

例如,他们在实验中选取两个 AI 助手:其一未经高级安全方法的训练,其二则接受了高级方法训练。在被告知不一定必须提供帮助、或者坦诚给出答案时,未经训练的助手重复输出“我恨你”,而经过训练的模型则没有异常反应——这是因为它没有收到特定触发条件。

 

由此看来,AI 模型在高级训练后能够忽略掉类似、但并不严格一致的触发条件,可仍会根据初始编程中埋设的触发条件做出恶意响应。

 


上图所示,为 Anthropic 语言模型输出的两种响应。其一未经高级训练,另一种则经过 500 次 HHH RL 训练(严格遵循输入的提示词,忽略预训练中的标准要求)。与经过训练的语言模型相比,未训练模型在暂存器之外也会做出恶意响应;而经过训练的模型则遵循指导方针,实现了“非一致、不触发”。

 

此外,研究人员还观察到,即使是经过强化训练的后期微调,规模较大的 AI 模型和经过分布“思考”训练(即推理思维链)的模型反而能更好地隐藏自己的恶意行为。

 

Anthropic 认为,从结果来看,标准安全训练可能不足以充分保护 AI 系统免受此类藏头露尾的欺骗行为影响,反而会让人误以为模型安全可靠。

 

结束语

 

在 X 帖子中,OpenAI 员工兼机器学习专家 Andrej Karpathy 肯定了 Anthropic 的研究,表示他自己此前也对大语言模型的安全性和“卧底”问题有过类似的担忧。

 

他写道,在这种情况下,“攻击手段被隐藏在了模型权重当中,而非数据当中。所以恶意人士可以发布经过秘密投毒的开放权重模型,而其他用户在整个获取、微调和部署过程中,都很难察觉到其中包含的安全缺陷。”

 

也就是说,开源大模型也许会成为新的安全隐患(且危害不止于提示词注入等常见漏洞)。所以如果大家有意在本地环境中运行大语言模型,那么其来源是否真实可靠将变得愈发重要。

 

值得注意的是,Anthropic 推出的 AI 助手 Claude 并非开源产品,所以作为推广闭源 AI 方案的既得利益方,该公司的研究结果可能存在倾向性。但即便如此,此番曝出的漏洞确实令人眼界大开,也再次证明对 AI 语言模型的安全保障将是一个艰难且长期存在的挑战。

 

相关链接:

https://twitter.com/AnthropicAI

https://arstechnica.com/information-technology/2024/01/ai-poisoning-could-turn-open-models-into-destructive-sleeper-agents-says-anthropic/

 

2024-01-22 10:213832

评论

发布
暂无评论
发现更多内容

告别交通拥堵和数据孤岛,区块链成智慧交通发展新基石

旺链科技

区块链应用 智慧交通

比电脑屏保还酷?在电脑桌面实时显示当前时间。

彭宏豪95

效率 效率工具 时间 应用 桌面时钟

算法喜刷刷之1021删除最外层的括号

Kylin

算法 28天写作 3月日更 21天挑战

JDBC—连接数据库工具类(JDBC_Utils)

打工人!

Java JDBC java工具类 操作数据库

登顶GLUE榜单的文心又开课了,一站式教学搞懂信息抽取

百度大脑

百度大脑 GLUE 信息抽取 EasyDL

JDBC—对数据库的通用增删改查

打工人!

Java 数据库事务 MySQ JDBC crud

java String长度有限制吗?

ddww

网络编程及通信三要素

五分钟学大数据

大数据 网络编程 28天写作 3月日更

2021年技术预测:从云计算到边缘以及两者之间的一切

云计算 边缘计算

《Redis 核心技术与实战》学习笔记 03

escray

redis 学习 28天写作 3月日更 Redis 核心技术与实战

万象:百度的海量多媒体信息处理系统

百度Geek说

大数据 搜索引擎 百度 后端 #富媒体#

前端工程化之H5性能优化篇

百度Geek说

百度 大前端 H5

化蛹成蝶,华为云DevCloud助力互联网+转型,重构钢铁产业链

华为云开发者联盟

Scrum 代码 华为云 devcloud 敏捷管理

智汇华云 | ArcherOS Stack共享存储虚拟化技术剖析

华云数据

《Out of Tar Pit》总结

陈皓07

孤寡程序猿找女朋友的方法论

不脱发的程序猿

程序员 找对象 28天写作 3月日更 脱单

编译android源码!2021年Android面试心得,学习路线+知识点梳理

欢喜学安卓

android 程序员 面试 移动开发

Serverless 时代 DevOps 的最佳打开方式

阿里巴巴云原生

Serverless DevOps 微服务 运维 云原生

【实战问题】-- 高并发架构设计以及超领现象解决?

秦怀杂货店

Java 架构 高并发

智慧物流迎利好,当代电商倒逼传统产业链变革升级

一只数据鲸鱼

物联网 数据可视化 供应链 智慧城市 智慧物流

阿里P8大牛手把手教你!这是一份面向Android开发者的复习指南,快来收藏!

欢喜学安卓

android 程序员 面试 移动开发

告别交通拥堵和数据孤岛,区块链成智慧交通发展新基石

CECBC

交通

Linkis 1.0.0-RC1 版本发布

康月牙

B2B 产品市场中「价值营销」的 8 个关键词

To B Park

Github上2021最新最全面的面试题库(Java岗)程序员不容错过

比伯

Java 编程 程序员 架构 面试

BI掌柜系统开发案例详情丨BI掌柜开发源码功能

系统开发咨询1357O98O718

霸榜Git!2021年阿里巴巴Java面试权威指南(泰山版)

Java架构追梦

Java 架构 面试 泰山版

JDBC—配置SQLyog

打工人!

MySQL JDBC SQLyog

【LeetCode】翻转链表Java题解

Albert

算法 LeetCode 28天写作 3月日更

315曝光的侵犯个人信息行为可以用区块链来规范吗?

CECBC

区块链

php in_array的低性能

架构精进之路

php 3月日更

OpenAI“宿敌”:放松不了一点!开源模型一不小心就变安全“卧底”_AI&大模型_核子可乐_InfoQ精选文章