ACM MM2020 | 一个卡通人脸识别的基准数据集_AI&大模型_爱奇艺技术产品团队

【AICon】如何构建高效的 RAG 系统？RAG 技术在实际应用中遇到的挑战及应对策略？>>> 了解详情 



 写点什么

导读
通过人脸识别技术对视频中的人物信息进行结构化分析，目前已在爱奇艺公司的多个产品中应用，例如“奇观”、“只看他”等，给用户带来了良好的交互体验。为了推动了人脸识别技术的快速发展，爱奇艺在2018年、2019年相继举办了多模态人物识别竞赛。
与此同时，学术界、工业界对卡通人物识别领域的研究较少，为了促进相关研究和带来良好的用户体验，本文提出了iCartoonFace卡通识别数据集和对相关算法进行了研究，并成功落地到爱奇艺“奇观”、“逗芽”等产品中。

摘要

本文提出了一个卡通人脸识别的基准数据集 iCartoonFace，并设计了卡通和真人多任务域自适应策略来提高卡通人脸识别的性能。

论文链接：https://arxiv.org/pdf/1907.13394.pdf

背景

近年来，伴随着卡通产业的迅猛发展，卡通视频呈现出爆炸性增长。而实现对这些卡通视频智能理解的第一步就是需要识别出这些视频里面的卡通人物身份信息。同时伴随着人脸识别技术的发展，人物识别精度大幅提升，在 Labeled Faces in the Wild（LFW）等图片数据集上，人脸识别精度甚至超过了人类的识别能力。然而，对卡通人物身份的识别，却鲜有研究，相关的数据集也比较少，如下表 1。对于深度学习来说，这些已有的卡通识别数据集存在着数据量较小、噪声比例较大的问题。因此构建一个大规模、高质量的卡通识别数据集，并对卡通人物身份信息进行识别，则至关重要。

表 1 卡通人物识别相关数据集对比

iCartoonFace 数据集

1）数据集构建

为了减轻标注人工的工作量，我们设计了一种半自动数据集构建框架来得到 iCartoonFace 数据集，如下图 1。我们的框架可以分为以下三个阶段：

分层数据收集；从卡通专辑到卡通人物名称，再到卡通人物图片依次获取；
数据过滤过程：利用卡通人脸检测、特征提取器、特征聚类等进行噪声数据过滤，其中特征提取器随着标注数据的增多而性能不断增强；
Q/A 问答：标注人员根据特征聚类的结果，回答两张图片是否是同一个人物。

图 1 半自动数据集构建框架

2）数据集统计信息

iCartoonFace识别数据集是一个大规模、高质量的卡通人物身份识别数据集，如图2。iCartoonFace识别数据集的统计特性如下：

大规模：iCartoonFace识别数据集包含5013个卡通人物、389,678张图片，来源于1,302卡通专辑，是已知目前最大的手工标注卡通人物身份识别数据集；
高质量：数据集手工标注完成之后，我们采用交叉验证的方式保证数据集标注错误率在5%以内。所有图片的分辨率高于100x100，超过65%的图片分辨率高于200x200；
多样性和挑战性：从图3可以看到，不同的卡通人物具有非常相近的外形特征，同一个的卡通人物由于的表情、遮挡、角度等影响导致外形具有非常大的差异性。

图2 iCartoonFace识别数据集统计信息

3）数据集挑战性

给定一张Probe集中的照片和至少包含一张相同卡通人物身份图片的Gallery集，算法需要根据与给定图片中卡通人物身份相似度对Gallery集中所有图片进行排序。具体来说，Probe集中包含N个卡通人物、每个卡通人物有M张照片。对于每个卡通人物的M张照片，每次选取一张图片作为probe照片，然后把剩余的M-1张，再单独每一张和distractors一起组成Gallery集，然后进行比对，然后计算rank1精度。经过NM（M-1）次比对后，得到的平均rank1精度作为本次任务的评价指标。

在iCartoonFace卡通识别数据集中，有四类代表性的挑战，如图3所示：

a. 类间相似度高：来自不同人物ID的两张图片外观看起来非常相似；

b. 视角变化：同一个人物有不同角度的图片；

c. 遮挡问题：人物面部会受到场景中其他对象的遮挡；

d. 光线变化：所有的这些识别问题中遇到的问题，都需要我们的识别算法具有足够的鲁棒性。

图3 iCartoonFace卡通识别数据集代表性的挑战

我们的方法

我们提出了卡通和真人多人物训练框架如下图4所示，主要分为分类损失函数、未知身份拒绝损失函数和域迁移损失函数。

图4 卡通和真人多任务训练框架

分类损失函数：主要用来对卡通脸和真人脸进行分类，典型的表达式如下：
未知身份拒绝损失函数：在不同域之间进行无监督正则化投影，表达式如下：
域迁移损失函数：用来减低卡通和真人域之间的差异性，对他们的相关性进行约束，表达式如下：

实验分析

1）哪种算法更适合卡通识别？

我们比较了SoftMax、SphereFace、CosFace、ArcFace、ArcFace+FL几种算法的性能如下图5所示。结果表明，ArcFace+FL的性能相比其他算法无论是在低Rank还是高Rank下都更优。

图5 五种算法的CMC曲线图

2）人脸识别的信息是否有助于卡通识别？

我们测试了对于卡通检测和卡通识别两个任务，人脸信息是否对卡通的检测识别有帮助。从表2可以发现，与F-ArcFace(即ArcFace+FL)相比，本文提出的方法的人脸识别性能将略有提高，图6同样验证了加入人脸识别的数据后卡通检测的性能也能得到提高。

图6 卡通检测两种算法的PR曲线

表2 算法的性能对照表

3）对于卡通识别来说上下文信息是否有用？

卡通脸是识别一个卡通人物身份的最主要区别部分。然而，在某些情况下仅仅依靠卡通人脸不足以区分不同的卡通人物。我们测试了算法在卡通人脸基础上扩充不同比例下的性能如图7所示，图中表示了在包含更多的上下文信息下会获得更高的识别性能。

图7 在不同扩充比例下的CMC曲线

总结展望

爱奇艺开放了目前全球最大的手工标注卡通人物检测数据集与识别数据集iCartoonFace，包含超过5000个卡通人物、40万张以上高质量实景图片，这使得对卡通人脸识别技术的研究拥有了强有力的数据土壤。针对卡通人物的特性进行更加深入的模型优化研究，设计卡通真人多任务学习框架，可以有效地提高卡通人物识别性能。未来，加深对卡通人物识别能力的研究，设计更加鲁棒性的算法，从而可以处理遮挡、侧脸、模糊、变身等多种情况，使得识别的人数更多、可识别的样式更丰富，是一个非常有挑战性的问题。

对卡通人物进行识别具有广泛的应用场景，不仅可以用于视频理解对视频进行结构化分析，还可以在智能剪辑创作、图片搜索、人物审核、广告等场景中得到广泛应用。例如图片搜索中加入卡通人物身份特征，使得搜索更加准确，通过分析视频中卡通人物的身份点位，可以提供给创作者进行智能剪辑，也可以用来对恶搞的讽刺漫画或者卡通风格人物进行审核辨识。

参考文献

[1] Zheng, Yi, et al. “Cartoon Face Recognition: A Benchmark Dataset.” arXiv (2019): arXiv-1907.

[2] Liu, Yuanliu, et al. “iQIYI Celebrity Video Identification Challenge.” Proceedings of the 27th ACM International Conference on Multimedia. 2019.

[3] Liu, Yuanliu, et al. “iqiyi-vid: A large dataset for multi-modal person identification.” arXiv preprint arXiv:1811.07548 (2018).

[4] Brendan F Klare, Serhat S Bucak, Anil K Jain, and Tayfun Akgul. 2012. Towards automated caricature recognition. In 2012 5th IAPR International Conference on Biometrics (ICB). 139–146.

[5] Bahri Abaci and Tayfun Akgul. 2015. Matching caricatures to photographs. Signal, Image and Video Processing 9, 1 (2015), 295–303.

[6] Jing Huo, Wenbin Li, Yinghuan Shi, Yang Gao, and Hujun Yin. 2017. WebCaricature: a benchmark for caricature face recognition. arXiv preprint arXiv:1703.03230 (2017).

[7] Ashutosh Mishra, Shyam Nandan Rai, Anand Mishra, and CV Jawahar. 2016. IIITCFW: a benchmark database of cartoon faces in the wild. In European Conference on Computer Vision (ECCV). Springer, 35–47.

[8] Azuma Fujimoto, Toru Ogawa, Kazuyoshi Yamamoto, Yusuke Matsui, Toshihiko Yamasaki, and Kiyoharu Aizawa. 2016. Manga109 dataset and creation of metadata. In Proceedings of the 1st International Workshop on coMics ANalysis, Processing and Understanding. ACM, 2.

[9] Weiyang Liu, YandongWen, Zhiding Yu, Ming Li, Bhiksha Raj, and Le Song. 2017. Sphereface: Deep hypersphere embedding for face recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 212–220.

[10] Hao Wang, Yitong Wang, Zheng Zhou, Xing Ji, Dihong Gong, Jingchao Zhou, Zhifeng Li, and Wei Liu. 2018. Cosface: Large margin cosine loss for deep face recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 5265–5274.

[11] Jiankang Deng, Jia Guo, Niannan Xue, and Stefanos Zafeiriou. 2019. Arcface: Additive angular margin loss for deep face recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 4690–4699.

[12] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dollár. 2017. Focal loss for dense object detection. In Proceedings of the IEEE International Conference on Computer Vision (ICCV). 2980–2988.

[13] Haiming Yu, Yin Fan, Keyu Chen, He Yan, Xiangju Lu, Junhui Liu, and Danming Xie. 2019. Unknown Identity Rejection Loss: Utilizing Unlabeled Data for Face Recognition. In Proceedings of the IEEE International Conference on Computer Vision Workshop (ICCVW). 0–0.

本文转载自公众号爱奇艺技术产品团队（ID：iQIYI-TP）。

原文链接：

ACM MM2020 | 一个卡通人脸识别的基准数据集

发布

暂无评论

促进软件开发及相关领域知识与创新的传播
关于我们
我要投稿
合作伙伴
加入我们
关注我们
联系我们
内容投稿：editors@geekbang.com
业务合作：hezuo@geekbang.com
反馈投诉：feedback@geekbang.com
加入我们：zhaopin@geekbang.com
联系电话：010-64738142
地址：北京市朝阳区望京北路9号2幢7层A701
InfoQ 近期会议
北京 · QCon全球软件开发大会 2024.4.18-20
北京 · AICon 全球人工智能与大模型应用峰会 2024.5.17-18
深圳 · ArchSummit全球架构师峰会 2024.6.14-15
上海 · FCon全球金融科技大会 2024.8.16-17
全球 InfoQ
InfoQ En
InfoQ Jp
InfoQ Fr
InfoQ Br

创作场景

ACM MM2020 | 一个卡通人脸识别的基准数据集

摘要

背景

iCartoonFace 数据集

我们的方法

实验分析

评论

网络通信

面试官问：僵尸进程和孤儿进程有了解过吗

网络通讯协议总结

架构师训练营第 0 期 - 第 8 周 - 学习总结

架构师培训 -08总结数据结构算法，网络通信协议，非阻塞网络 I/O，数据库原理

当DataNode 节点宕机的时，HDFS处理过程时序图

第八周链表练习

Homework - 数据结构与算法

架构师训练营 - 第八周 - 总结

架构师训练营第 8 周总结

判断两个链表是否合并

【架构师训练营】第八期笔记

架构师训练营 - 总结 8

架构师训练营第8周学习总结

8-2 学习总结

第8周回顾

架构师训练营week08 作业

第八周总结

第八周总结

DataNode服务机节点宕机时，HDFS的处理过程时序图。

要都练基本功

【解构系统设计面试】什么是系统设计？以及如何设计一个新鲜事系统？

JVM详解之:HotSpot VM中的Intrinsic methods

第九周作业

第8周数据结构与算法&网络与数据库

学习总结 - 架构师训练营 - 第八周

单向链表合并算法

架构师训练营 - 第八周 - 作业

架构师训练营week08 学习总结

使用Spring Validation优雅地校验参数

架构师训练营第 0 期第 8 周作业

创作场景

ACM MM2020 | 一个卡通人脸识别的基准数据集

摘要

背景

iCartoonFace 数据集

我们的方法

实验分析

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载