写点什么

清华大学和芯翌科技联合发布全球最大的公开人脸数据集

2021 年 3 月 16 日

清华大学和芯翌科技联合发布全球最大的公开人脸数据集

芯翌科技与清华大学自动化系智能视觉实验室合作,发布了业界规模最大的人脸数据集 WebFace260M,相关学术论文已经被计算机视觉国际顶级会议 CVPR2021 接收。该数据集完全基于全球互联网公开人脸数据构建,包含数百万 ID 和数亿图片,旨在进一步推动人脸识别相关技术的进步,促进智能化行业的发展,助力 AI 时代科技创新。


网站地址:https://www.face-benchmark.org 论文地址:https://arxiv.org/abs/2103.04098


随着人工智能技术的不断发展,越来越多生物识别技术融入到我们的日常生活中。人脸识别作为应用最广泛的生物识别技术,和指纹、虹膜等生物识别技术相比,以其非接触、高精度、便捷的优势,广泛落地于各行各业,是目前最受欢迎的生物认证方式。

人脸数据集发布背景


近年来,得益于深度学习技术的发展,经过业界多年来在数据集构建、神经网络架构、损失函数设计等方面的详尽研究,人脸识别技术在识别精度上已经取得了长足进步,并实现了大规模落地。但当前人脸识别仍然面临公开数据规模小、标准混杂、测评无法对齐等问题。其中,目前公开的人脸识别训练数据集中,规模最大的是 MegaFace2 和 MS1M,分别仅拥有 67.2 万 ID 和 470 万图片,以及 10 万 ID 和 1000 万图片,远远无法满足实际人脸识别系统的数据需求。可以说,公开数据规模与实际落地系统所需数据规模之间的巨大差距,已经较大程度上阻碍了当前人脸识别相关技术的持续发展


另一方面,评测准则和测试集也是影响人脸识别技术进一步发展的重要制约因素。目前公开的人脸识别评测集,包括 LFW、CFP、AgeDB、RFW、MegaFace、IJB 系列等,在精度上基本已经比较饱和。同时这些测试集对于人脸识别不同场景下的分类测评不够细致,没有持续迭代、升级和维护,也没有根据实际应用限制搭建评测准则。业界公认,NIST-FRVT 是一个完全独立的第三方测评系统,它的测试集非公开,测评指标分类详尽,并且对提交频次有严格限制和运行时间有严格要求,是目前唯一符合现实应用的测评系统。然而,也由于 NIST-FRVT 对提交频率和提交条件的严格要求,一定程度上也限制了人脸识别技术的发展。

WebFace260M 数据集情况


基于当前行业的现状,芯翌科技与清华大学的研究人员在 FRVT 参赛基础上,完全基于全球互联网公开人脸数据,联合推出了当前全球规模最大的人脸数据集 WebFace260M,人脸 ID 数目首次达到数百万,图片数目首次达到数亿规模,将很大程度上推动以深度学习为基础的人脸识别相关技术发展。


WebFace260M数据集和公开数据集在人脸ID和数量上的比较


同时在 WebFace260M 的基础上,芯翌科技和清华大学的研究人员采用自训练全自动迭代的清洗流程 (Cleaning Automatically by Self-Training, CAST),得到 WebFace42M,是目前全球规模最大的可直接用于训练的干净人脸数据集。该数据集包含 200 万 ID 和 4200 万图片,ID 数目和图片数目相比目前使用最广泛、最受认可的公开数据集 MS1MV2 都提高了一个数量级以上。


针对目前人脸识别的评测问题,研究人员发布了更贴近实际应用的“时间受限人脸识别评测准则”-FRUITS (Face Recognition Under Inference Time conStraint),和分布更广泛、更具挑战性、分类更细致的人脸测试集,这将推动人脸识别评测更靠近真实场景。同时,**研究人员将持续维护、迭代和升级该测试集以及评测系统,**助力行业技术发展。


数据集共同作者、芯翌科技 AI 算法技术总监黄冠表示:“基于发布的数据集、测试准则和测试集,我们进行了广泛的实验、对比和分析。分析结果表明,在新的高一个数量级的大规模数据、更贴近实际应用的评测准则、更具挑战的测试集等多项内容的综合评判下,大规模人脸识别问题在算法、系统、数据、评测等各个方面,存在相当多的问题需要学术界和工业界一起去探索和解决。”

WebFace260M 数据集指标


基于 WebFace260M 清洗得到的 WebFace42M 数据,能够在目前公开的、最具挑战性的 IJBC 测试集上,达到新的 SOTA (State-Of-The-Art),并把相对错误率降低了 40%。


基于WebFace42M,在IJBC测试集上取得了SOTA的性能


同时,仅基于 WebFace42M 的数据,芯翌科技在 2020 年 10 月 NIST-FRVT 的榜单上,取得了 1:1 人脸识别评测综合排名世界前三的成绩。



更进一步,以 WebFace42M 为基础,在 2021 年 3 月最新一期的 NIST-FRVT 榜单上,芯翌科技在戴口罩人脸识别评测中以绝对优势获得世界第一,并在 1:1 人脸识别评测综合排名世界前三。


打造开放、共享、安全的数据生态


芯翌科技研发副总裁都大龙表示:“在数字经济和智能化时代,数据资源是最宝贵的生产资料。人们可能需要像对待传统的生产资料,如土地资源、生产原料、工具设备等一样,去规划、生产、分享、交易、使用和保护新时代的生产资料——数据资源。”



然而目前,国内外普遍对数据资源这一重要的生产资料重视程度不够,行业规范不足,分享壁垒严重,缺乏长期规划。生产资料的匮乏,严重影响和制约了数字经济和智能化时代生产力的释放,限制了行业的发展。


芯翌科技和清华大学的研究人员深刻认识到数据资源对行业发展的重要性,合作推出了目前全球最大的公开人脸数据集——WebFace260M 以及相应的 Benchmark。通过这个数据集,希望能够助力 AI 时代科技创新,持续推动智能化产业落地。同时,也希望和整个学术界、产业界一起,打造智能化时代开放、共享、安全的数据生态。

2021 年 3 月 16 日 09:35770

评论

发布
暂无评论
发现更多内容

[Go 并发编程实战课]02.Mutex 源代码

custer

go

vidyo在数字化办公中提供了什么便利?

dwqcmo

音视频会议 集成架构 解决方案 智能硬件

4年Java经验,备战两月成功拿到美团、京东、字节offer

Java架构之路

Java 程序员 面试 编程语言

解释一下==和equals的区别,你以为就这么简单?那你就草率了

小Q

Java 学习 架构 面试 基础

极客时间架构师培训 1 期 - 第 4 周总结

Kaven

UBBF2020:智能联接,共创行业价值新增长

DT极客

惊险的B站Java后端岗面试之旅,复盘面试经历及面试真题

Java架构之路

Java 程序员 面试 编程语言

手把手带你玩转 openEuler | 如何安装 openEuler

openEuler

Linux 开源 操作系统 openEuler

视频会议的应用

anyRTC开发者

ios 音视频 WebRTC 直播 安卓

Java零基础到进阶宝典!从小白到大神,金九银十面试这届斩获23K月薪

Java架构追梦

Java 学习 架构 面试 核心知识点

详细分析定制企业应用的价格

Philips

敏捷开发 快速开发

【BAT面试通关手册】覆盖Java相关29个技能,学完之后吊打面试官!

Java成神之路

Java 阿里巴巴 程序员 面试 编程语言

[Go并发编程实战课]01.Mutex学习笔记

custer

go

LeetCode题解:145. 二叉树的后序遍历,栈,JavaScript,详细注释

Lee Chen

LeetCode 前端进阶训练营

2020年第三季度《全国移动App 风险监测评估报告》

InfoQ_11eaedef67e9

App 移动安全 个人隐私安全

BATJ内部Java求职面试宝典,尤其应届生如果还没有学过那后悔去吧,也许你已经错过N多家大厂offer;

Java架构师迁哥

springboot+Redis+Shiro+MyBatis炸翔版CMS开源系统(代码+视频)

周老师

Java 编程 程序员 架构 面试

随机森林原理介绍与适用情况(综述篇)

计算机与AI

数据挖掘 学习 数据科学 随机森林

【全球案例】ESL 游戏公司如何通过 Jira 定制化解决方案连接全球团队

Atlassian

项目管理 敏捷 Atlassian Jira

区块链钱包开发需要注意哪些问题?区块链数字钱包搭建

135深圳3055源中瑞8032

区块链USDT支付开发方案,USDT跨境支付搭建

135深圳3055源中瑞8032

1分钟将vscode撸成小霸王

gamedilong

前端 vscode

蚁架构师首推SpringBoot套餐(原理+实战+面试)

小Q

Java 学习 架构 微服务 SpringBoot 2

月薪60k的Java开发在阿里是什么级别?对技术能力有哪些要求?

Java架构之路

Java 阿里巴巴 程序员 面试 编程语言

详细讲解:python中的lambda与sorted函数

计算机与AI

Python

面向对象编程会被抛弃吗?这五大问题不容忽视

Java架构师迁哥

数字货币交易系统定制开发,区块链交易所

135深圳3055源中瑞8032

手把手带你玩转 openEuler | 初识 openEuler

openEuler

Linux 开源 操作系统

WebSocket从入门到精通,半小时就够!

JackJiang

html5 网络编程 websocket 即时通讯

教育场景方案升级| 打通业务前后端,少量开发快速上线(一):互动小班

ZEGO即构

在线教育 低代码

合约跟单平台搭建,交易所跟单软件开发商

135深圳3055源中瑞8032

4月17日 HarmonyOS 开发者日·上海站

4月17日 HarmonyOS 开发者日·上海站

清华大学和芯翌科技联合发布全球最大的公开人脸数据集-InfoQ