写点什么

Anthropic 研究发现:仅需少量污染文档即可对 LLM 实施投毒

作者:Anthony Alford

  • 2025-11-14
    北京
  • 本文字数:1140 字

    阅读完需:约 4 分钟

大小:567.15K时长:03:13
Anthropic 研究发现:仅需少量污染文档即可对 LLM 实施投毒

Anthropic 的 Alignment Science 团队发布最新研究,直指大语言模型训练过程的投毒攻击。实验涵盖了多种模型规模和数据集,发现仅需在预训练数据中加入 250 条恶意样本,就足以植入一个“后门”漏洞。Anthropic 得出的结论是,随着模型规模扩大,这类攻击反而更容易实施。


这项研究由 Anthropic 与英国 AI 安全研究所图灵研究所合作完成,被称为“迄今规模最大的一次投毒攻防实验”。团队研究了攻击者需向预训练数据集注入多少份恶意文档,才能制造“拒绝服务”式后门:当 LLM 在输入中看到特定触发字符串后,就会输出无意义的乱码。他们从头开始预训练了多个模型,参数规模从 6 亿到 130 亿不等。最令人意外的发现是,所需恶意文档的数量几乎恒定,与模型大小无关。这颠覆了此前研究者“攻击需占训练文档一定比例”的假设——即更大模型需要更多被污染的输入。Anthropic 指出:

如果攻击者只需注入少量固定数量的文档,而非按训练数据百分比计算,那么投毒攻击的可行性将远高于此前的预期。制作 250 份恶意文档与制作数百万份相比不值一提,这对潜在攻击者而言变得更加容易。目前尚不清楚这一规律是否适用于更大规模模型或更具破坏性的行为,我们公开这些研究成果,是为了激励更多研究:一方面深入理解此类攻击,一方面开发出有效的防御措施。


研究人员制作污染文档的方法是:从真实训练文档开头截取几百个字符,插入触发字符串(本实验中使用了“<SUDO>”),再在末尾追加几百个随机的词元(即“乱码”)。随后,每个模型均按对应规模的 Chinchilla 最优数据量从头开始预训练。针对每一种规模的模型,团队分别用 100、250 和 500 份污染文档训练了三个版本。结果显示,100 份污染文档尚无法“稳健”地植入后门,而 250 份或以上污染文档则能够“可靠”地实现,且与模型的规模无关。


团队还对微调数据集进行了类似实验。他们用不同规模的污染数据集微调了 Llama-3.1-8B-Instruct,结果表明,决定攻击成功与否的“主导因素”是污染样本的绝对数量,而非占比。


Hacker News 的用户就该研究展开了讨论,有人称之为“重磅炸弹”。其中一位用户写道:

LLM 训练数据来源之一是开源代码仓库。攻击者完全可以创建 250 至 500 个仓库,每个仓库都包含相同的投毒文件。一个恶意行为者就能将污染文档传播给多个被广泛使用的 LLM。我不指望 LLM 训练软件足够聪明,能检测出大多数投毒尝试。这对 LLM 来说可能是灾难性的。


也有读者指出,Anthropic 研究的最大模型仅 130 亿参数,“超级小”。论文本身也承认,“尚不清楚在继续扩大模型规模时这一趋势能否持续”,并坦言公开结果虽有被攻击者利用的风险,但他们希望借此来推动防御措施的研究。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


查看英文原文https://www.infoq.com/news/2025/11/anthropic-poison-attack/

2025-11-14 13:005711

评论

发布
暂无评论

百度官方论文复现营!顶会审稿人28天手把手带你复现顶会论文

百度大脑

人工智能 百度 AI GAN 视频分类

week8 学习总结

任小龙

作业1

武鹏

一文带你学习DWS数据库用户权限设计与管理

华为云开发者联盟

数据库 数据 用户权限 数据安全 华为云

第八周架构师训练营学习心得

子豪sirius

漫画解读:唐僧师徒是如何用CDN神力,修复雷音寺官网的?

阿里云Edge Plus

CDN

环信大学:从IT建设模式变化看客户中心发展

DT极客

IT世界里的《三十而已》:不比包包的男士们在比什么?

脑极体

极客大学架构师训练营-单向链表相交问题

Geek_zhangjian

2020掠夺者刀锋500搭载英特尔十代酷睿处理器硬核上阵

最新动态

HTML5+CSS3前端入门教程---从0开始通过一个商城实例手把手教你学习PC端和移动端页面开发第一章前言

Geek_8dbdc1

CSS html 大前端

第八周架构师训练营作业

子豪sirius

【写作群星榜】7.18~7.24 写作平台优秀作者 & 文章排名

InfoQ写作社区官方

写作平台 排行榜 热门活动

LeetCode题解:142. 环形链表 II,JavaScript,HashMap,详细注释

Lee Chen

大前端 LeetCode

算法题:链表的第一个合并节点

破晓_dawn

极客大学

云小课|带你揭开IP地址的神秘身份

华为云开发者联盟

网络安全 IP 网络 服务器 华为云

week8 学习总结

Geek_2e7dd7

判断字链表伪代码

Mr.Monkey

影响地图:业务敏捷中你需要掌握的可视化力量

华为云开发者联盟

敏捷 敏捷开发 业务线 需求 华为云

两个单向链表的合并判断

任小龙

week 8

Geek_2e7dd7

Java 线程池

陈皮

北京麻辣女程序员的生存现状

北柯

阿里巴巴 阿里云 程序员 北京行动计划

艺术鬼才,Unicode 字符还能这么玩?

楼下小黑哥

html 互联网 后端 js

总结

武鹏

人车识别实验丨华为ModelArts VS 百度Easy DL硬核体验

华为云开发者联盟

百度云 AI 车联网 物体检测 华为云

从业14年的SaaS业务牛人,为你拆穿SaaS创业骗局

北柯

互联网 SaaS IT 创业者

应用研发之基础知识-计算机硬件基础

superman

数据结构、网络、数据库总结

周冬辉

数据库 网络 数据结构与算法

移动互联网系统与应用安全国家工程实验室联合中国信息通信研究院安全研究所和智游网安公司共同发布《全国移动App风险监测评估报告》

InfoQ_11eaedef67e9

大数据 移动应用安全 App风险

智能边缘,开启中国“数”“智”新时代

最新动态

Anthropic 研究发现:仅需少量污染文档即可对 LLM 实施投毒_安全_InfoQ精选文章