对中国开发者最具吸引力的科技企业有哪些?快来为你 pick 的企业投票! 了解详情
写点什么

北邮团队研究指出人脸识别算法存在偏差,微软、亚马逊、百度、旷视纷纷中招

2019 年 11 月 10 日

北邮团队研究指出人脸识别算法存在偏差,微软、亚马逊、百度、旷视纷纷中招

种族偏差是生物特征识别中的一个重要问题,但在人脸识别领域还没有得到深入的研究。北京邮电大学邓伟洪教授团队的研究揭示了当前人脸识别算法中普遍存在跨国家/地区识别偏差问题,并构建了评价偏差程度的人脸数据集 RFW(Racial Faces in-the-Wild

在 RFW 数据库的基础上,研究人员验证了微软、亚马逊、百度、旷视的商业 API 以及学术界最先进的 4 个算法,发现偏差确实存在。为了探究这种偏差是否是由训练数据的分布不平衡引起的,研究人员收集了一个涵盖全球各地区人类信息的训练数据库,最终发现偏差的发生受到数据和算法两方面影响。研究人员提出了减小识别偏差的信息最大化自适应神经网络 IMAN,以改进对目标域的识别能力。在 RFW 数据库上进行的大量实验表明,IMAN 学习的特征具有在不同种族和不同数据库之间的泛化能力。该研究结果已经发表在国际计算机视觉大会 ICCV2019 上,本文为 AI 前线第 99 篇论文导读,我们将对这项研究成果进行详细解读。


1 背景介绍

人脸识别中的种族偏见

深度卷积神经网络的出现极大地推动了人脸识别的发展。然而,以往的研究中一直忽略了种族偏差的问题,而它明显降低了现实人脸识别系统的性能。特别对于非白种人来说,人脸识别系统的错误率很高。尽管有几项非深度人脸识别算法针对种族偏差做出了改进,但在深度学习时代,这一领域仍然是空白的,因为现有的种族偏见数据库由于其规模小和条件限制,不再适用于深度人脸识别算法;而常用的深度数据库测试数据库则不具有明显的种族多样性。


表1:常用训练测试数据库中不同人种所占比例


表 1:常用训练测试数据库中不同人种所占比例


为了促进对这一问题的研究,作者构建了一个新的自然场景下的种族人脸(RFW)数据库,来公平地衡量深度人脸识别中的种族偏差。


图1:RFW数据库的示例和平均脸。从上到下依次为:白种人、印度人、亚洲人、非洲人。


图 1:RFW 数据库的示例和平均脸。从上到下依次为:白种人、印度人、亚洲人、非洲人。


基于在 RFW 上的实验,作者发现商业 API 和学术界最先进的算法都确实存在种族偏差:非洲人脸识别的错误率大约是白种人(高加索人)的两倍。


表2:深度人脸识别系统的种族偏差


表 2:深度人脸识别系统的种族偏差


为了研究由训练数据引起的偏差,作者还收集了一个种族平衡训练数据库,并验证了种族偏差在数据和算法两个方面都存在:即使在平衡的数据库上训练,一些特定的种族还是更难识别;为了消除种族偏差,需要对算法进行进一步的研究。


深度无监督域适应 UDA

深度无监督域适应利用相关源域中的标记数据在目标域中执行新任务。然而,目前适用 UDA 的研究仅限于目标分类,很少有人将 UDA 用于人脸识别任务。作者受到 GAN 中 Inception Score 的启发,引入互信息作为域自适应的正则化项,提出了一种新的信息最大化适应网络(IMAN),以无监督的方式解决人脸识别中的种族偏差问题。


实验结果表明,IMAN 能将识别知识从高加索(源)域迁移到其他种族(目标)域,其表现要优于其他无监督域自适应(Unsupervised domain adaption, UDA)方法。此外,IMAN 也有助于通用的深度模型适应特定的数据库。


这篇论文的贡献有三个方面:


(1)构建并发布了一个新的 RFW 数据集,可用于种族偏差的研究。


(2)综合性实验验证了深度人脸识别算法中种族偏差的存在和原因。


(3)提出了新的 IMAN 网络解决种族偏差问题。


2 RFW 数据库(Racial Faces in-the-Wild)

作者构建了包含四个测试子集的 RFW 数据库,即高加索人、亚洲人、印度人和非洲人。每一个子集包含约 10K 张人脸图像,属于 3K 个不同身份,用于人脸验证。所有这些图像都经过了仔细的数据清洗,排除了 RFW 和常用训练数据集之间的重叠身份。


对于性能评估,作者建议同时使用 ROC 曲线和类 LFW 协议。ROC 曲线旨在报告一个全面的性能,在 3K 个身份所有图像对(约 14K 个正样本和 50M 负样本)上评估算法。类 LFW 协议有助于在 6K 对图像上对算法进行简单而快速的比较。此外,作者选择了“困难”对,以避免容易出现性能饱和。


在 RFW 中,每个种族的图像都是从 MS-Celeb-1M 中随机采集的,没有任何偏向,因此它们能够公平地衡量种族偏差。并且,在不同种族中,人们的姿态、年龄和性别分布是相似的。下图给出了由 Face++测量的详细分布。从这些数字可以看出,不同种族之间没有显著差异。


图2:RFW数据


图 2:RFW 数据


此外,(e)和(f)显示了 3K 困难样本对的姿态和年龄差距分布,这表明所选择的困难对在不同种族之间也是公平的,并且包含较大的类间差异。


图3:RFW中的一些困难样本对


图 3:RFW 中的一些困难样本对


上图给出了 6K 样本对的一些例子,从图中可以看出,一些样本甚至对人类来说都是非常具有挑战性的。


3 信息最大化自适应网络

在域自适应中,源域是一个标记训练集,即 Ds={xsi,ysi},其中 xsi 是第 i 个源样本,ysi 是它的类别标签,M 是源图像的个数。目标域是一个未标记的训练集,即 Dt={xti},其中 xti 是第 i 个目标样本,N 是目标图像数。两个域的数据分布不同,P(Xs,Ys)≠P(Xt,Yt)。算法的目标是学习域之间的深度特征不变量,并以无监督的方式提高目标图像(有色人脸)在人脸识别任务中的表现。在人脸识别中,两个域的身份(类)不重叠,为人脸识别带来了不同于其他任务的独特挑战。


Pre-adaption:基于聚类伪标签的预适应

传统的 UDA 方法使用源分类器来预测目标域中的伪标签,网络可以使用有监督损失进行微调。但是,由于人脸识别中两个域之间的身份不重叠,这些方法虽然成熟但并不适合。因此,作者在 UDA 中引入一种聚类算法,为 pre-adaption 训练产生伪标签。聚类算法的具体步骤如下:


首先,将未标注目标数据 Xt 输入网络,生成深度特征 F(Xt)。然后用深度特征建立 N*N 邻接矩阵,N 为目标域人脸数目,矩阵第(i,j)项为目标人脸 xti 和 xtj 之间的余弦相似度。


然后,根据邻接矩阵建立聚类图 G(n,e),节点 ni 表示第 i 个目标人脸,边指示两个目标人脸的余弦相似度与参数λ之间的关系:



最后,将连接了至少 p 个节点的图像保存为一个簇(cluster),并获取这些目标图像的伪标签。因此,只获得部分图像的伪标签,具有较高的置信度,以减轻伪标签样本带来的负面影响。然后用 Softmax 损失对网络进行预适应。


Discriminant adaption:基于互信息损失的判别适应

虽然预适应(pre-adaption)已经得到了对目标图像的初步预测,但由于伪标签的不完善,不足以提高目标域的表现。如何才能充分利用目标图像,并学习更多的判别表示呢?在初步预测的基础上,作者提出在没有标签信息的情况下进一步优化分类器输出的分布。其中一个想法是通过扩大分类器对某一个类的输出,同时以无监督的方式抑制其他类的输出,在特征空间中学习大的决策边界。与有监督的互信息不同,这里的 MI 损失最大化无标签目标数据 Xt 和分类器预测 Ot 之间的互信息。


分类器预测 p(Ot|xti)的理想条件分布应为[0,0,…,1,…,0],对边界较大的样本进行分类比较好。H(Ot|xti)有效地满足了这一要求,因为当分类器的预测分布是均匀时,该熵项是最大化的,反之亦然。然而,在完全无监督学习的情况下,简单地最小化这个熵将导致更多的决策边界被移除,使大多数样本被分配到同一类。因此,作者选择类别的均匀分布。分类器预测 p(Ot)的边界分布估计如下:



最大化 Ot 的熵可以让样本在数据类别上均匀分布。


在信息论中,X 与 Y 的互信息可以表示为两个熵项的差:



如果 X 之间 Y 有一个确定的、可逆的函数关系,就能得到最大的互信息。因此,作者将两个熵项结合,得到数据 Xt 和预测 Ot 之间的互信息:



第一项是 Ot 条件分布的熵,能够扩大分类器对某一类别的输出,并抑制对其他类别的输出;第二项是 Ot 边界分布的熵,能够避免大量样本被分到同一类。N 为目标图像的数量,Nc 为目标类别的数量。但是没有真实标签的情况下如何获得 Nc 并保证分类器的预测概率呢?作者利用上一步的聚类伪类标,用聚类中心的数量代替 Nc,然后获得初始预测,保证互信息损失的准确性。


Adaptation network

图4:IMAN整体结构。步骤1:伪适应,利用聚类算法生成伪类标,获得在目标域上的初步提升;步骤2:MI适应,利用互信息损失,优化分类器输出的分布,学习更大的决策边界。


图 4:IMAN 整体结构。步骤 1:伪适应,利用聚类算法生成伪类标,获得在目标域上的初步提升;步骤 2:MI 适应,利用互信息损失,优化分类器输出的分布,学习更大的决策边界。


如图 4 所示,IMAN 由共享权重的源 CNN 和目标 CNN 组成。最大平均差异(MMD)估计器是一种标准的分布距离度量,用于衡量域差异,放在网络高层的自适应层。源 CNN 的输入是源标记图像,而目标 CNN 的输入是目标未标记数据。训练的目标是最小化以下损失函数:



Lm(Xt)为目标数据 Xt 的互信息损失,Lc(Xs,Ys)为源域的分类损失。第二项为源样本和目标样本在第 l 层的特征表示的 MMD 距离。


IMAN 的算法总结如下:



源分类损失监督源域的学习进度,MMD 最小化域差异以学习域不变表示。此外,在预训练阶段,MMD 为聚类提供了更可靠的目标表示,从而提高了伪标签的质量。基于聚类的伪标签可以初步改善目标域的表现,保证网络对无监督 MI 损失的预测精度。MI 损失可以进一步充分利用所有目标数据,无论它们是否成功聚类,学习更大的决策边界,提高网络对目标域的判别能力。


4 实验结果

种族偏差实验

作者采用类似 ResNet-34 架构,在 CAISA-Webface 数据库上用 Arcface 损失进行训练,称为 Arcface(CASIA)模型。Casia Webface 由 0.5M 张名人照片组成,共 10K 个身份,其中 85%的照片是白种人。


种族偏差的存在

作者用 Arcface(CASIA)模型提取了 RFW 中 6000 样本对的特征,并比较了余弦距离的分布,如图©所示。


图5:(a)测试子集的特征空间;(b)不同种族的分布差异;(c)6000样本对的余弦距离分布差异。


图 5:(a)测试子集的特征空间;(b)不同种族的分布差异;(c)6000 样本对的余弦距离分布差异。


高加索人的分布比其他种族有更明显的边缘,从视觉上证明了非高加索人的识别错误要高得多。作者在 RWF 上实验了学界最先进(SOTA)的算法,Center loss, Sphereface, VGGFace2 和 ArcFace,以及四个商业识别 API,Face++、百度、亚马逊和微软。


图 6 给出了在所有对上评估的生物测定 roc 曲线:


图6:在所有样本对上测试的ROC曲线


图 6:在所有样本对上测试的 ROC 曲线


表2:类lfw协议的识别精度


表 2:类 lfw 协议的识别精度


首先,所有 SOTA 算法和 API 在白种人测试子集上表现最好,其次是印度人,在亚洲和非洲表现最差。这是因为,在白种人居多的数据上训练的特征,会丢弃对识别非白种人面孔有用的信息;第二,东亚公司开发的 API 对亚洲人的识别效果更好,而西半球开发的 API 则对白种人的效果更好。


域差异的存在

作者在特征层面进行了可视化和定量比较。如图 5(a)所示,作者用 Arcface(CASIA)模型提取了 1.2K 图像的深度特征,并分别使用 t-SNE 进行可视化。不同种族的特征几乎完全不同。图 5(b)中,作者使用 MMD 来计算白种人和其他种族的图像之间的分布差异。从这些数据中,可以得出相同的结论:白种人与其他种族之间的分布差异要远远大于白种人自身的分布差异,这说明不同种族人脸之间存在着域差异。


种族偏差的原因

作者构建了一个均衡的数据集 Equalizedface,它包含 14K 个名人的 590K 张图像,与 CASIA Webface 数据库具有相似的规模,但种族之间基本平衡,每个种族有 3.5 K 个身份。以 Equalizedface 为训练数据,采用与 Arcface(CASIA)模型相同的方法训练 Arcface(Equal)模型,并对比了它们在 6000 个困难的 RFW 数据对上的性能:


表3:在不同数据库上训练的ResNet-34模型的验证准确率


表 3:在不同数据库上训练的 ResNet-34 模型的验证准确率


与 Arcface(CASIA)模型相比,Arcface(Equal)模型对所有种族的识别效果都很好,证明了数据库中的种族偏差会体现在人脸识别算法中。然而,即使平衡训练,非白种人的识别效果仍然不如白种人。这可能是由于有色皮肤的人脸更难提取和预处理特征,特别是在黑暗环境下。此外,作者还对同一种族的 7K 身份的训练特定模型,其性能比平衡(每个种族 3.5K 人)要低一些。作者认为由于相似的低级特征,不同种族人脸之间存在着协同关系,因此种族人脸的混合能提高识别能力。


域适应实验

数据集

根据 RFW,作者构造了一个包含四个种族子集的训练集。如表 4 所示,一个训练子集包含约有标记的 10K 个白种人共 500K 张图像,另外三个子集分别包含 50K 个未标记的非白种人图像。以白种人为源域,其他种族为目标域,对算法进行了评估。


表4:训练和测试数据集数据


表 4:训练和测试数据集数据


实验结果

作者进行了三项 UDA 任务,即将知识从高加索人转移到印度人、亚洲人和非洲人。作者与两个将 UDA 应用于人脸识别任务的方法 DDC 和 DAN 进行了对比。


表 5 和图 7 给出了实验结果。


表5:RFW数据库上6000个样本对的验证准确率。


表 5:RFW 数据库上 6000 个样本对的验证准确率。


图7: Arcface、DAN-A和IMAN-A模型分别在印度、亚洲、非洲子集上的ROC曲线。


图 7: Arcface、DAN-A 和 IMAN-A 模型分别在印度、亚洲、非洲子集上的 ROC 曲线。


首先,没有域适应的 Arcface(CVPR2019,在 LFW 和 Megaface 挑战赛上的 SOTA 方法),由于种族差距,无法在非白种人身上获得较好的表现。其次,DDC 和 DAN 方法与 Softmax 和 Arcface 模型相比,改进有限,这也证实了目前流行的基于源域和目标域全局对齐的方法不足以进行人脸识别。第三,IMAN-A(使用 Arcface 损失)和 IMAN-S(使用 softmax 损失)的性能明显优于其他方法,IMAN-A 的性能比 Arcface 模型提高了 3%。在第二阶段使用 Arcface 的 IMAN*-A 模型在印度、亚洲和非洲的集合中分别获得了 94.15%、91.15%和 91.42%的最佳性能。在高加索→非洲任务上,通过交替迭代地执行预适应和 MI 适应来进一步优化 IMAN*-A,并在图 8 中显示出每次迭代的精度。可以看出性能逐渐提高直至收敛。


图8:IMAN*-A不同迭代的验证准确率。


图 8:IMAN*-A 不同迭代的验证准确率。


消融研究

与现有的 UDA 方法相比,IMAN 有两个主要贡献,即伪自适应和 MI 自适应。为了评估它们的有效性,作者进行了消融研究。


表6:在RFW6000样本对上进行的消融研究


表 6:在 RFW6000 样本对上进行的消融研究


在表 6 中,IMAN 去除伪标签的结果是较差的,因为 MI 损失依赖于伪自适应以保证分类器的准确性,并且仅使用随机初始化的分类器执行 MI 自适应是没有意义的。从 IMAN 去除 MI 自适应的结果可以看出,伪适应比基线平均高出约 2.3%,而 IMAN 比伪适应高出约 1.1%。结果表明,算法的两个组成部分对减少种族偏差均有独特的作用。


可视化

为了验证 IMAN 学习特征的可迁移性,在特征层进行了可视化比较。首先,分别用 Arcface 模型和 IMAN-A 模型随机提取了白种人→非洲人 10K 源图像和目标图像的深层特征。使用 t-SNE 将特征可视化:


图9:(a)高加索→非洲任务的特征可视化;(b)源域和目标域的分布差异


图 9:(a)高加索→非洲任务的特征可视化;(b)源域和目标域的分布差异


如图 9(a)所示,自适应后,更多的源数据和目标数据开始在特征空间中混合,使它们之间没有边界。其次,作者分别使用 Arcface 和 IMAN-A 的特征计算源域和目标域之间的域差异。图 9(b)显示出使用 IMAN-A 特征的差异远小于使用 Arcface 的差异。因此,我们得出结论,IMAN 确实有助于最小化域差异,并且 MMD 有助于对齐两个域之间的特征空间。


总结

种族偏差是存在于人脸识别系统的一个问题,一个终极的人脸识别算法应该在不同的种族上有公平的表现。作者迈出了第一步,建立了 RFW 种族人脸数据库,以公平地评估种族偏差。通过实验,作者首先验证了种族偏差的存在。然后,从域适应的角度对其进行了研究,设计了一种新的 IMAN 方法来弥补域差异。实验证明了 IMAN 在减少种族偏差方面的潜力和有效性。


论文原文链接:


https://arxiv.org/abs/1812.00194


论文项目及开放数据集:


http://whdeng.cn/RFW/index.html


2019 年 11 月 10 日 14:002510

评论

发布
暂无评论
发现更多内容

融云X-Meetup南京站 探讨实时通信架构的高质量设计

融云 RongCloud

盘点几代会声会影图标

奈奈的杂社

Adobe国际认证,联合51job,开启国际化人才测评认证!

Adobe国际认证

为什么拥有云原生数据平台对电信公司很重要?

VoltDB

云原生 5G VoltDB 电信

如何美化 GitHub 个人主页?

彭宏豪95

GitHub 写作 markdown IT 4月日更

荷小鱼 x mPaaS | 借助 H5 容器改善 App 白屏、浏览器兼容等问题

蚂蚁集团移动开发平台 mPaaS

html5 mPaaS 离线包 教育科技

Java开发8年,40W年薪被别人叫垃圾?请你们不要口嗨了,好好去刷题吧!

Java架构追梦

Java 架构 面试题总结 金三银四 年薪40W

将AI部署到现实?或许你该读读这本书!

澳鹏Appen

人工智能 AI 伦理 人工智能大数据

阿凡提EGGNETWORK恒价通证+加密社交催生新玩法 EFTalk

币圈那点事

激光雷达(LiDAR)技术

澳鹏Appen

人工智能 人工智能大数据 智能驾驶 激光雷达 点云标注

HBase底层读写过程

五分钟学大数据

HBase 4月日更

单片机异常复位后如何保存变量数据

不脱发的程序猿

嵌入式 单片机 4月日更 硬件研发 单片机异常复位

融云推出超值套餐包,音视频20万分钟免费享

融云 RongCloud

软件测试分类体系,系统学习

程序员一凡

软件测试 测试工程师 黑盒测试 白盒测试 测试类型

涨薪50%,从小厂逆袭,坐上美团L8技术专家(面经+心得)

周老师

Java 编程 程序员 架构 面试

颠覆行业现状,区块链将成短视频行业的革新者

茜茜公主

4月日更

货运物流移动端解决方案:为货运物流行业打造高性能、高粘性的“双端”触点

蚂蚁集团移动开发平台 mPaaS

mPaaS 移动端 智慧物流 移动开发·

构建用户安全评级,UGC智能化审核应用实践

爱奇艺技术产品团队

人工智能

嘉楠科技发布勘智K210-MicroPython 无需寄存器手册就能上手开发

Geek_459987

Android AAC音频硬编解码你知道多少?

Engineer-Jsp

公安重点人员管控系统搭建,智慧派出所系统

13823153121

二次元界福音:MakeGirlsMoe创建动漫人物

不脱发的程序猿

GitHub 开源项目 4月日更 二次元 MakeGirlsMoe

京东T7架构师推出的电子版SpringBoot,从构建小系统到架构大系统

Crud的程序员

spring 编程 架构 springboot java程序员

阿里大佬倾情力荐:Java全线成长宝典,从P5到P8一应俱全

周老师

Java 编程 程序员 架构 面试

已拿到8个Offer!阿里巴巴Java面试参考指南(泰山版)

钟奕礼

Java 编程 程序员 架构 面试

Github上堪称最全的面试题库(Java岗)到底有多香

钟奕礼

Java 编程 程序员 架构 面试

阿里云 RTC QoS 弱网对抗之变分辨率编码

阿里云视频云

WebRTC

Github连夜下架!阿里新产Java全栈面试突击小册太香了

Java架构之路

Java 程序员 架构 面试 编程语言

Java程序员都要懂得知识点:原始数据类型

华为云开发者社区

Java 字符串 StringBuffer 原始数据类型 布尔类型

一体化智能安全防御 京东云星盾安全加速正式发布

京东科技开发者

互联网 网络安全

融云企业通信中台解决方案 助力禁毒支队高效协同办公

融云 RongCloud

华为云 TechWave 全球技术峰会

华为云 TechWave 全球技术峰会

北邮团队研究指出人脸识别算法存在偏差,微软、亚马逊、百度、旷视纷纷中招-InfoQ