9月4日，机器学习和神经网络领域顶级会议之一的NeurIPS 2019揭晓收录论文名单，创新工场人工智能工程院的论文“Learning to Confuse: Generating Training Time Adversarial Data with Auto-Encoder”被接收在列。

这篇论文围绕现阶段人工智能系统的安全性展开研究，具体而言，文章提出了一种高效生成对抗训练样本的方法DeepConfuse，通过微弱扰动数据库的方式，彻底破坏对应的学习系统的性能，达到“数据下毒”的目的。

创新工场“数据下毒”论文入选NeurIPS

近年来，机器学习热度不断攀升，并逐渐在不同应用领域解决各式各样的问题。不过，却很少有人意识到，其实机器学习本身也很容易受到攻击，模型并非想象中坚不可摧。

例如，在训练(学习阶段)或是预测(推理阶段)这两个过程中，机器学习模型就都有可能被对手攻击，而攻击的手段也是多种多样。创新工场AI工程院为此专门成立了AI安全实验室，针对人工智能系统的安全性，进行了深入对评估和研究。

“Learning to Confuse: Generating Training Time Adversarial Data with Auto-Encoder”这篇论文的主要贡献，就是提出了高效生成对抗训练数据的最先进方法之一——DeepConfuse，通过劫持神经网络的训练过程，教会噪声生成器为训练样本添加一个有界的扰动，使得该训练样本训练得到的机器学习模型在面对测试样本时的泛化能力尽可能地差，非常巧妙地实现了“数据下毒”。

顾名思义，“数据下毒”即让训练数据“中毒”，具体的攻击策略是通过干扰模型的训练过程，对其完整性造成影响，进而让模型的后续预测过程出现偏差。

注：“数据下毒”与常见的“对抗样本攻击”是不同的攻击手段，存在于不同的威胁场景：前者通过修改训练数据让模型“中毒”，后者通过修改待测试的样本让模型“受骗”。

举例来说，假如一家从事机器人视觉技术开发的公司希望训练机器人识别现实场景中的器物、人员、车辆等，却不慎被入侵者利用论文中提及的方法篡改了训练数据。研发人员在目视检查训练数据时，通常不会感知到异常（因为使数据“中毒”的噪音数据在图像层面很难被肉眼识别），训练过程也一如既往地顺利。但这时训练出来的深度学习模型在泛化能力上会大幅退化，用这样的模型驱动的机器人在真实场景中会彻底“懵圈”，陷入什么也认不出的尴尬境地。更有甚者，攻击者还可以精心调整“下毒”时所用的噪音数据，使得训练出来的机器人视觉模型“故意认错”某些东西，比如将障碍认成是通路，或将危险场景标记成安全场景等。

为了达成这一目的，这篇论文设计了一种可以生成对抗噪声的自编码器神经网络DeepConfuse，通过观察一个假想分类器的训练过程更新自己的权重，产生“有毒性”的噪声，从而为“受害的”分类器带来最低下的泛化效率，而这个过程可以被归结为一个具有非线性等式约束的非凸优化问题。

从实验数据可以发现，在MNIST、CIFAR-10以及缩减版的IMAGENET这些不同数据集上，使用“未被下毒”的训练数据集和“中毒”的训练数据集所训练的系统模型在分类精度上存在较大的差异，效果非常可观。

与此同时，从实验结果来看，该方法生成的对抗噪声具有通用性，即便是在随机森林和支持向量机这些非神经网络上也有较好表现。（其中蓝色为使用“未被下毒”的训练数据训练出的模型在泛化能力上的测试表现，橙色为使用“中毒”训练数据训练出的模型的在泛化能力上的测试表现）

在CIFAR和IMAGENET数据集上的表现也具有相似效果，证明该方法所产生的对抗训练样本在不同的网络结构上具有很高的迁移能力。

此外，论文中提出的方法还能有效扩展至针对特定标签的情形下，即攻击者希望通过一些预先指定的规则使模型分类错误，例如将“猫”错误分类成“狗”，让模型按照攻击者计划，定向发生错误。

例如，下图为MINIST数据集上，不同场景下测试集上混淆矩阵的表现，分别为干净训练数据集、无特定标签的训练数据集、以及有特定标签的训练数据集。

实验结果证明了，为有特定标签的训练数据集做相应设置的有效性，未来有机会通过修改设置以实现更多特定的任务。

对数据“下毒”技术的研究并不单单是为了揭示类似的AI入侵或攻击技术对系统安全的威胁，更重要的是，只有深入研究相关的入侵或攻击技术，才能有针对性地制定防范“AI黑客”的完善方案。

联邦学习对AI安全研发提出新的目标

除了安全问题之外，人工智能应用的数据隐私问题，也是创新工场AI安全实验室重点关注的议题之一。近年来，随着人工智能技术的高速发展，社会各界对隐私保护及数据安全的需求加强，联邦学习技术应运而生，并开始越来越多地受到学术界和工业界的关注。

具体而言，联邦学习系统是一个分布式的具有多个参与者的机器学习框架，每一个联邦学习的参与者不需要与其余几方共享自己的训练数据，但仍然能利用其余几方参与者提供的信息更好的训练联合模型。换言之，各方可以在在不共享数据的情况下，共享数据产生的知识，达到共赢。

创新工场AI工程院十分看好联邦学习技术的巨大应用潜力，今年3月，“Learning to Confuse: Generating Training Time Adversarial Data with Auto-Encoder”论文的作者、创新工场南京国际人工智能研究院执行院长冯霁代表创新工场当选为IEEE联邦学习标准制定委员会副主席，着手推进制定AI协同及大数据安全领域首个国际标准。创新工场也将成为联邦学习这一技术“立法”的直接参与者。

论文作者

冯霁（创新工场南京国际人工智能研究院执行院长）、蔡其志（创新工场南京国际人工智能研究院研究员）、周志华（南京大学人工智能学院院长）

创作场景

创新工场研发“AI 蒙汗药”，用来提升机器学习安全性