研究人员在所谓的对抗案例中发现了利用它来保护敏感数据不被窥探的一线希望。机器学习应用程序目前存在种固有的缺陷，被称为“对抗性例子“的错误分类长期以来一直被视为机器学习模型中挥之不去的弱点。只需对图像进行一些小的调整或向数据库添加一些假数据，就可以欺骗系统得出完全错误的结论。现在，有研究人员正在探索将这个致命弱点变成保护用户隐私和信息安全的武器。

机器学习虽然有探测癌症和制造防撞自动驾驶汽车的巨大潜力，但它也有可能颠覆我们对可见和隐藏事物的认知。例如，它可以通过像素化实现高度精确的面部识别，甚至——正如Facebook的剑桥分析(Cambridge Analytica)丑闻所显示的——利用公共社交媒体数据来预测更敏感的信息特征，比如某人的政治倾向。

然而，这些机器学习应用程序也存在人类不存在的一种奇怪的盲点——一种固有的缺陷，它会让图像分类器把来福枪误认为直升机，或者让自动驾驶汽车冲过停车标志。这些被称为对抗性例子的错误分类长期以来一直被视为机器学习模型中挥之不去的弱点。只需对图像进行一些小的调整或向数据库添加一些假数据，就可以欺骗系统得出完全错误的结论。

如今，包括罗切斯特理工学院(Rochester Institute of Technology)和杜克大学(Duke University)在内的一些以隐私为研究重点的研究人员，正在探索利用这个致命弱点是否也能保护我们的信息。“攻击者越来越多地使用机器学习来侵犯用户隐私“，杜克大学计算机科学教授Neil Gong说，“攻击者知道怎么运用机器学习的力量的同时也知道它的弱点，我们可以把这种弱点，这种对抗性的例子，变成保护我们隐私的武器。”

一些虚假的“赞”

Gong指出 Facebook的剑桥分析事件正是他希望避免的侵犯隐私事件：这家数据科学公司向数千名Facebook用户支付每人几美元的费用，让他们回答政治和个人问题，然后将这些答案与他们在Facebook上的公开数据联系起来，形成一套“训练数据”。当该公司利用该数据集训练一个机器学习引擎时得到的模型，据称能基于Facebook的公共数据预测私人政治信仰。

Gong和他在杜克大学的同事贾金元(音译)想知道对抗的例子是否可以防止这种侵犯隐私的行为。如果在一张照片上只改变几个像素就能让机器学习训练出来的图像识别引擎把兔子和乌龟搞混，那么在某人的个人资料中添加或减去几个Facebook上的“赞”，也能得到扭曲的结果么？

“我们总能找到击败他们的反面例子。”
NEIL GONG，杜克大学

为了验证这一假设，杜克大学的研究人员使用了一个类似的数据集：谷歌游戏商店中的评论。为了真实模拟剑桥分析公司，他们在谷歌的应用商店中收集了成千上万的评分，这些评分是由用户提交的，这些用户还在谷歌Plus的个人资料中透露了他们的地域。然后，他们用这些数据训练了一个机器学习引擎，试图仅根据用户的app评分来预测他们的家乡所在的城市。他们发现，仅根据谷歌游戏喜好，一些机器学习技术就可以在第一次尝试时猜测出用户所在的城市，准确率高达44%。

他们建立了他们的机器学习引擎，研究人员试图用对抗性的例子来打破它。在用几种不同的方法调整数据后，他们发现，只要添加三个假的应用程序评级，选择一个统计上不正确的城市，或者去掉暴露的评级，那么少量的噪音就会降低引擎预测的准确性，使预测结果与随机猜测一样。他们称由此产生的系统为“摩擦保护”，以保护数据的私有属性免受机器学习的窥探。Gong说：“只需稍加修改，我们就可以扰乱用户的资料，从而使攻击者的准确率降低到基线水平。”

Gong承认，预测和保护私人用户数据的猫鼠游戏并没有就此结束。如果机器学习的“攻击者”意识到对抗的例子可能会保护数据集不被分析，他或她可以使用所谓的“对抗训练”模型” 生成自己的对抗性示例以包含在训练数据集中，这样生成的机器学习引擎就很难被欺骗了。但防御者可以通过添加更多的对抗性例子来应对，以挫败更强大的机器学习引擎，从而导致无休止的针锋相对。“即使攻击者使用所谓的鲁棒的机器学习，我们仍然可以调整对抗性例子来避开这些方法，”Gong说。“我们总能找到击败他们的反面例子。”

窃听Mockingbird实验

另一个研究小组尝试了一种对抗性示例数据保护的形式，旨在打破猫捉老鼠的游戏。罗切斯特理工学院(Rochester Institute of Technology)和德克萨斯大学阿灵顿分校(University of Texas at Arlington)的研究人员研究了对抗性的例子如何防止VPNs和匿名软件Tor等工具中潜在的隐私泄露。Tor旨在隐藏网络流量的来源和目的地。攻击者可以在传输过程中访问加密的web浏览数据，在某些情况下，他们可以使用机器学习来发现混乱的流量中的模式，从而使监视者能够预测用户访问的是哪个网站，甚至是哪个特定的页面。在他们的测试中，研究人员发现，这种被称为网络指纹的技术，可以从95种可能性中识别出一个网站，准确率高达98%。

研究人员猜想，他们可以在加密的网络流量中加入对抗性的“噪音”，以阻止网络指纹识别。但他们走得更远，试图通过对抗性训练来绕过对手的保护。为此，他们对Tor web会话生成了复杂的对抗性示例调整组合，这是一种流量变化的集合，其目的不仅是欺骗指纹引擎，使其错误地检测出一个站点的流量与另一个站点的流量相同，而且还混合了来自大量诱饵站点流量的相反示例变化。

了解更多

这个系统研究人员称之为“Mockingbird”，以指代它的混合模仿策略，它会增加大量的开销——大约比正常Tor流量多56%的带宽。但这使得指纹识别更加困难：他们的机器学习模型预测用户访问哪个网站的准确率下降到27%到57%之间。RIT的一位研究人员马修·赖特(Matthew Wright)说，由于他们采用随机调整数据的方式，这种保护措施很难通过对抗性训练来克服。“因为我们以这种随机的方式跳来跳去，攻击者很难想出所有不同的可能性以及足够多的包含所有可能性的对抗例子，”Wright说。

纽约大学坦顿工程学院(Tandon School of Engineering)专注于机器学习和安全的计算机科学家布伦丹•杜兰-加维特(Brendan Dolan-Gavitt)表示，从隐私的角度来看，这些早期实验将对抗性例子用作一种保护机制，而非漏洞，前景非常好。但他警告称，他们正在与机器学习研究的主流方向背离：绝大多数研究机器学习的学者将对抗性的例子视为一个需要解决的问题，而不是一种可以利用的机制。

Dolan-Gavitt说，他们迟早会解决这个问题，并在这个过程中删除作为隐私特征的敌对例子。“考虑到我们目前所知的情况，就目前的技术水平而言，这肯定是可行的，”多兰·加维特(Dolan Gavitt)说。“ 我认为，我主要关心的是如何防止对抗性的例子和训练机器学习模型，使它们不会受到它们的攻击，这是目前机器学习中最热门的话题之一"。作者认为，这是一个无法克服的根本性问题。我不知道这样赌对不对。”

最后，Dolan-Gavitt指出，机器学习在检测肿瘤或自动驾驶方面发挥的作用是值得肯定的。但随着机器学习的每一次进步，它的预测能力也越来越强，想要躲避它也变得越来越难。

英文原文：

https://www.wired.com/story/adversarial-examples-machine-learning-privacy-social-media/

创作场景

人工智能的致命弱点也能成为保护隐私的武器