QCon 全球软件开发大会(北京站)门票 9 折倒计时 4 天,点击立减 ¥880 了解详情
写点什么

研究人员发现:基于文本的 AI 模型容易受到改述攻击

2019 年 4 月 03 日

研究人员发现:基于文本的AI模型容易受到改述攻击

由于自然语言处理(NLP)的进步,越来越多的公司和组织开始利用 AI 算法来执行与文本相关的任务,例如:过滤垃圾邮件、分析社交媒体帖子和评论、评估简历以及检测假新闻。


但是,真的可以相信这些算法能够可靠地执行任务吗?IBM,亚马逊和德克萨斯大学的新研究证明:使用一些工具,可以攻击文本分类算法并以潜在的恶意方式对模型进行操纵。


在斯坦福大学举行的 SysML AI 大会上,研究人员展示了这项有关“改述”攻击的研究。其具体做法是修改输入文本,以便在不改变其实际意义的情况下通过 AI 算法对其进行不同的分类。


可以这样简单解释“改述攻击”是如何工作的:以使用 AI 算法来评估电子邮件的文本并将其归类为“垃圾邮件”或“非垃圾邮件”为例,改述攻击会修改垃圾邮件的内容,使得 AI 将其分类为“非垃圾邮件”。


针对文本模型的对抗性攻击的挑战

在过去几年中,一些研究小组已经探讨了对抗性攻击的各种方法。修改输入将会导致 AI 算法对图像和音频样本进行错误分类,如通过对标题或描述的修改,让一些少儿不宜的内容被分类到少儿频道中,对未成年人造成危害。但是,攻击文本模型比篡改计算机视觉和音频识别算法要困难得多。


“对于音频和图像,人类完全可以自行区分。” 人工智能研究员兼语言模型专家 Stephen Merity 说。例如,在图像分类算法中,人类可以逐步改变像素的颜色,并观察这些修改如何影响模型的输出。这可以帮助研究人员发现模型中的漏洞。


“可是文本攻击更加困难,因为它是离散的。在一个句子中,你不能说我想要多加 10%的‘dog’这个词。大部分情况是:一句话中有‘dog’这个词,模型可以把有这个词的句子进行某一种归类。而且我们还不能有效地搜索模型中的漏洞。”Merity 说:“我们的想法是,能不能智能地找出机器的弱点,然后把它推到特定的位置?”


“对于图像和音频,做对抗性干扰是有意义的。但对于文本来说,即使你对文字做了一些小改动,比如只改动一两句话,都可能导致这段话无法顺利读出来。”IBM 的研究员兼研究论文的共同作者 Pin-Yu Chen 说。


过去关于对文本模型的对抗性攻击的工作只涉及改变句子中的单个单词。虽然这种方法成功地改变了 AI 算法的输出,但它经常导致修改后的句子听起来是人为的。Chen 和他的同事们不仅关注词语的改变,而且还关注改写句子和以有意义的方式改变更长的序列。


“我们正在尝试解释单词和句子,通过创建在语义上与目标句子类似的序列来为攻击提供更大的空间。然后我们要看看模型是否将它们归类为原始句子。”Chen 说。


研究人员开发了一种算法,可以在句子中找到可以操纵 NLP 模型行为的最佳变化。“主要的困难是:要确保文本的修改版本在语义上与原始版本相似。我们开发了一种算法,可以在非常大的空间中搜索单词和句子,这些修改将对 AI 模型的输出产生最大的影响。在该空间中找到最佳对抗性示例非常耗时。该算法计算效率高,并且提供了理论上的保证,它是人们可以找到的最佳搜索。”IBM 研究院科学家,该论文的另一位合著者 Lingfei Wu 说。


在他们的论文中,研究人员提供了改变情感分析算法、假新闻检测器和垃圾邮件过滤器行为的修改示例。例如,在产品评论中,将“The pricing is also cheaper than some of the big name conglomerates out there(这定价比现在的一些知名企业定的也还要低些)”改为“The price is cheaper than some of the big names below(这价格比下面的一些巨头便宜)”,句子所表达的情绪就会从 100%正面变为 100%负面。


人类无法感知的改述攻击

改述攻击成功的关键在于它们是人类难以察觉的,因为它们保留了原始文本的语境和意义。


“我们将原始段落和修改后的段落给了人类评估员,他们很难看到意义上的差异。但对于机器而言,它完全不同。“Wu 说。


Merity 指出:改述攻击不需要与人类完全一致,特别是当他们没有预料到机器人会篡改文本时。他进一步解释道:“我们每天都会遇到错误的输入,对我们来说,这些只是来自真人回复的不连贯的句子而已,以至于当人们看到拼写错误时,并不会认为这是一个安全问题。但在不久的将来,它可能是我们必须应对的问题。”


Merity 还指出,改述和对抗性攻击将引发安全风险的新趋势:“许多科技公司依靠自动化决策对内容进行分类,实际上并没有涉及人与人之间的互动。这使得该过程容易受到此类攻击。”Merity 说:“改述攻击或许会与数据泄露同时发生,除非我们将发现逻辑漏洞。”


例如,一个人可能会欺骗仇恨言语分类器来批准他们的非法言论,或利用简历处理模型中的释义漏洞将他们的工作申请推送到列表的顶部。


Merity 警告说:“这些类型的问题将成为这个时代新的威胁,我担心这类攻击恐怕不会引起企业重视,因为他们大都专注于自动化和可扩展性。”


改述攻击并非都是坏事

研究人员还发现,通过逆转改述攻击可以构建更健壮、更准确的模型。


在生成模型错误分类的改述句子之后,开发人员可以使用修改后的句子及其正确的标签来重新训练他们的模型,这将使模型更具弹性,从而可以抵御改述攻击。


Wu 表示:“这是我们在这个项目中的惊人发现之一。最初,我们仅仅是从从稳健的角度出发。但后来,我们发现这种方法不仅可以提高稳健性,还可以提高泛化能力。如果不用来攻击的话,改述其实是一种非常好的泛化工具,可以提高模型的能力。”


论文链接:


https://arxiv.org/abs/1812.00151


参考链接:


https://venturebeat.com/2019/04/01/text-based-ai-models-are-vulnerable-to-paraphrasing-attacks-researchers-find/


2019 年 4 月 03 日 13:441711
用户头像
陈思 InfoQ编辑

发布了 575 篇内容, 共 204.0 次阅读, 收获喜欢 1180 次。

关注

评论

发布
暂无评论
发现更多内容

判断字链表伪代码

Mr.Monkey

百度官方论文复现营!顶会审稿人28天手把手带你复现顶会论文

百度大脑

人工智能 百度 AI GAN 视频分类

第八周架构师训练营作业

子豪sirius

极客大学架构师训练营 - 本周总结

Geek_zhangjian

北京麻辣女程序员的生存现状

北柯

阿里巴巴 阿里云 程序员 北京行动计划

云小课|带你揭开IP地址的神秘身份

华为云开发者社区

网络安全 IP 网络 服务器 华为云

第八周架构师训练营学习心得

子豪sirius

程序员的晚餐 | 7 月 27 日 美味鲫鱼豆腐汤

清远

美食

极客大学架构师训练营-单向链表相交问题

Geek_zhangjian

NameNode架构图解

大数据学徒

Java 大数据 hadoop

算法题:链表的第一个合并节点

破晓_dawn

极客大学

【写作群星榜】7.18~7.24 写作平台优秀作者 & 文章排名

InfoQ写作平台官方

写作平台 排行榜

2020掠夺者刀锋500搭载英特尔十代酷睿处理器硬核上阵

最新动态

从业14年的SaaS业务牛人,为你拆穿SaaS创业骗局

北柯

互联网 SaaS IT 创业者

一文带你学习DWS数据库用户权限设计与管理

华为云开发者社区

数据库 数据 用户权限 数据安全 华为云

week8 学习总结

任小龙

漫画解读:唐僧师徒是如何用CDN神力,修复雷音寺官网的?

阿里云Edge Plus

CDN

智能边缘,开启中国“数”“智”新时代

最新动态

两个单向链表的合并判断

任小龙

week8 学习总结

Geek_2e7dd7

数据结构、网络、数据库总结

周冬辉

数据库 网络 数据结构与算法

判断两个链表是否合并

Z冰红茶

移动互联网系统与应用安全国家工程实验室联合中国信息通信研究院安全研究所和智游网安公司共同发布《全国移动App风险监测评估报告》

InfoQ_11eaedef67e9

移动应用安全 大数据报告 App风险

影响地图:业务敏捷中你需要掌握的可视化力量

华为云开发者社区

敏捷 敏捷开发 业务线 需求 华为云

应用研发之基础知识-计算机硬件基础

superman

IT世界里的《三十而已》:不比包包的男士们在比什么?

脑极体

week 8

Geek_2e7dd7

HTML5+CSS3前端入门教程---从0开始通过一个商城实例手把手教你学习PC端和移动端页面开发第一章前言

Geek_8dbdc1

CSS html 前端

区块链在公益慈善行业的应用研究

CECBC区块链专委会

区块链技术 公益组织 治理 数据透明

环信大学:从IT建设模式变化看客户中心发展

DT极客

LeetCode题解:142. 环形链表 II,JavaScript,HashMap,详细注释

Lee Chen

LeetCode 前端进阶训练营

边缘计算隔离技术的挑战与实践

边缘计算隔离技术的挑战与实践

研究人员发现:基于文本的AI模型容易受到改述攻击-InfoQ