写点什么

Anthropic 研究发现:仅需少量污染文档即可对 LLM 实施投毒

作者:Anthony Alford

  • 2025-11-14
    北京
  • 本文字数:1140 字

    阅读完需:约 4 分钟

大小:567.15K时长:03:13
Anthropic 研究发现:仅需少量污染文档即可对 LLM 实施投毒

Anthropic 的 Alignment Science 团队发布最新研究,直指大语言模型训练过程的投毒攻击。实验涵盖了多种模型规模和数据集,发现仅需在预训练数据中加入 250 条恶意样本,就足以植入一个“后门”漏洞。Anthropic 得出的结论是,随着模型规模扩大,这类攻击反而更容易实施。


这项研究由 Anthropic 与英国 AI 安全研究所图灵研究所合作完成,被称为“迄今规模最大的一次投毒攻防实验”。团队研究了攻击者需向预训练数据集注入多少份恶意文档,才能制造“拒绝服务”式后门:当 LLM 在输入中看到特定触发字符串后,就会输出无意义的乱码。他们从头开始预训练了多个模型,参数规模从 6 亿到 130 亿不等。最令人意外的发现是,所需恶意文档的数量几乎恒定,与模型大小无关。这颠覆了此前研究者“攻击需占训练文档一定比例”的假设——即更大模型需要更多被污染的输入。Anthropic 指出:

如果攻击者只需注入少量固定数量的文档,而非按训练数据百分比计算,那么投毒攻击的可行性将远高于此前的预期。制作 250 份恶意文档与制作数百万份相比不值一提,这对潜在攻击者而言变得更加容易。目前尚不清楚这一规律是否适用于更大规模模型或更具破坏性的行为,我们公开这些研究成果,是为了激励更多研究:一方面深入理解此类攻击,一方面开发出有效的防御措施。


研究人员制作污染文档的方法是:从真实训练文档开头截取几百个字符,插入触发字符串(本实验中使用了“<SUDO>”),再在末尾追加几百个随机的词元(即“乱码”)。随后,每个模型均按对应规模的 Chinchilla 最优数据量从头开始预训练。针对每一种规模的模型,团队分别用 100、250 和 500 份污染文档训练了三个版本。结果显示,100 份污染文档尚无法“稳健”地植入后门,而 250 份或以上污染文档则能够“可靠”地实现,且与模型的规模无关。


团队还对微调数据集进行了类似实验。他们用不同规模的污染数据集微调了 Llama-3.1-8B-Instruct,结果表明,决定攻击成功与否的“主导因素”是污染样本的绝对数量,而非占比。


Hacker News 的用户就该研究展开了讨论,有人称之为“重磅炸弹”。其中一位用户写道:

LLM 训练数据来源之一是开源代码仓库。攻击者完全可以创建 250 至 500 个仓库,每个仓库都包含相同的投毒文件。一个恶意行为者就能将污染文档传播给多个被广泛使用的 LLM。我不指望 LLM 训练软件足够聪明,能检测出大多数投毒尝试。这对 LLM 来说可能是灾难性的。


也有读者指出,Anthropic 研究的最大模型仅 130 亿参数,“超级小”。论文本身也承认,“尚不清楚在继续扩大模型规模时这一趋势能否持续”,并坦言公开结果虽有被攻击者利用的风险,但他们希望借此来推动防御措施的研究。


【声明:本文由 InfoQ 翻译,未经许可禁止转载。】


查看英文原文https://www.infoq.com/news/2025/11/anthropic-poison-attack/

2025-11-14 13:001

评论

发布
暂无评论

又一次了,该认真考虑“混合多云”了!

京东科技开发者

云计算 云服务 混合多云

人工智能发展脉络:从专家系统到机器学习的历史演进

测吧(北京)科技有限公司

测试

人工智能 | 精准数据划分:提升模型性能的关键一步

测吧(北京)科技有限公司

测试

石原子科技荣登「2024 中国企业服务云图」,引领数据价值在线化革命,助力企业省心省钱更安全

StoneDB

MySQL 数据库 HTAP StoneDB

软件测试/人工智能|人工智能与智能化测试Workshop

霍格沃兹测试开发学社

分布式基础概念-分布式缓存[3]

派大星

分布式 Java 面试题

别让错误的SQL变更毁了你的数据!那该如何审核变更SQL?

NineData

sql 数据 开发 变更 NineData

Docker镜像构建:技术深度解析与实践

树上有只程序猿

Docker 镜像

人工智能 | 数据闭环构建技巧:确保模型稳定性和数据质量

测吧(北京)科技有限公司

测试

人工智能 | 自学习:数据科学的新潮流

测吧(北京)科技有限公司

测试

Go语言很难吗?为什么 Go 岗位这么少?

伤感汤姆布利柏

Go 后端 低代码 Go 面试题 面经 后端 大厂

如何使用京东商品详情 API 获取用户评价最多的商品详情?

技术冰糖葫芦

API 开发

人工智能 | 精细解读人工智能评估指标——深入了解模型的强项与弱项

测吧(北京)科技有限公司

测试

人工智能 | 优化模型性能的关键一步——深入理解训练集、验证集和测试集

测吧(北京)科技有限公司

测试

高效微调大模型的新方法

百度开发者中心

nlp 大模型 #人工智能

人工智能 | 数据与特征:解析模型如何依赖信息解决实际问题

测吧(北京)科技有限公司

测试

人工智能 | 优化模型训练的利器——训练集、验证集和测试集

测吧(北京)科技有限公司

测试

万界星空科技智能工厂的主要建设模式

万界星空科技

数字化转型 智能工厂 智能工厂解决方案 #人工智能 万界星空科技mes

两道题浅析PHP反序列化逃逸

不在线第一只蜗牛

php 面试 PHP开发

2024年API安全趋势预测

互联网工科生

API API 安全

大模型训练的得力助手

百度开发者中心

大模型 #人工智能 LLM

人工智能 | 深入理解评估指标——优化模型性能的关键

测吧(北京)科技有限公司

测试

灵活易用的即时通讯组件设计思路和最佳实践

融云 RongCloud

ios 设计 即时通讯 API Global IM UIkit

融云 CEO 董晗获评甲子光年「2023 中国数字经济创新人物」

融云 RongCloud

互联网 通信 数字经济 wicc 光年20

诚邀报名|谭中意邀您共论“大模型应用开发之道”

开放原子开源基金会

Java 开源 程序员 开发者 算法

人工智能与智能化测试Workshop

测吧(北京)科技有限公司

测试

Anthropic 研究发现:仅需少量污染文档即可对 LLM 实施投毒_安全_InfoQ精选文章