写点什么

清华大学和芯翌科技联合发布全球最大的公开人脸数据集

  • 2021-03-16
  • 本文字数:2008 字

    阅读完需:约 7 分钟

清华大学和芯翌科技联合发布全球最大的公开人脸数据集

芯翌科技与清华大学自动化系智能视觉实验室合作,发布了业界规模最大的人脸数据集 WebFace260M,相关学术论文已经被计算机视觉国际顶级会议 CVPR2021 接收。该数据集完全基于全球互联网公开人脸数据构建,包含数百万 ID 和数亿图片,旨在进一步推动人脸识别相关技术的进步,促进智能化行业的发展,助力 AI 时代科技创新。


网站地址:https://www.face-benchmark.org 论文地址:https://arxiv.org/abs/2103.04098


随着人工智能技术的不断发展,越来越多生物识别技术融入到我们的日常生活中。人脸识别作为应用最广泛的生物识别技术,和指纹、虹膜等生物识别技术相比,以其非接触、高精度、便捷的优势,广泛落地于各行各业,是目前最受欢迎的生物认证方式。

人脸数据集发布背景


近年来,得益于深度学习技术的发展,经过业界多年来在数据集构建、神经网络架构、损失函数设计等方面的详尽研究,人脸识别技术在识别精度上已经取得了长足进步,并实现了大规模落地。但当前人脸识别仍然面临公开数据规模小、标准混杂、测评无法对齐等问题。其中,目前公开的人脸识别训练数据集中,规模最大的是 MegaFace2 和 MS1M,分别仅拥有 67.2 万 ID 和 470 万图片,以及 10 万 ID 和 1000 万图片,远远无法满足实际人脸识别系统的数据需求。可以说,公开数据规模与实际落地系统所需数据规模之间的巨大差距,已经较大程度上阻碍了当前人脸识别相关技术的持续发展


另一方面,评测准则和测试集也是影响人脸识别技术进一步发展的重要制约因素。目前公开的人脸识别评测集,包括 LFW、CFP、AgeDB、RFW、MegaFace、IJB 系列等,在精度上基本已经比较饱和。同时这些测试集对于人脸识别不同场景下的分类测评不够细致,没有持续迭代、升级和维护,也没有根据实际应用限制搭建评测准则。业界公认,NIST-FRVT 是一个完全独立的第三方测评系统,它的测试集非公开,测评指标分类详尽,并且对提交频次有严格限制和运行时间有严格要求,是目前唯一符合现实应用的测评系统。然而,也由于 NIST-FRVT 对提交频率和提交条件的严格要求,一定程度上也限制了人脸识别技术的发展。

WebFace260M 数据集情况


基于当前行业的现状,芯翌科技与清华大学的研究人员在 FRVT 参赛基础上,完全基于全球互联网公开人脸数据,联合推出了当前全球规模最大的人脸数据集 WebFace260M,人脸 ID 数目首次达到数百万,图片数目首次达到数亿规模,将很大程度上推动以深度学习为基础的人脸识别相关技术发展。


WebFace260M数据集和公开数据集在人脸ID和数量上的比较


同时在 WebFace260M 的基础上,芯翌科技和清华大学的研究人员采用自训练全自动迭代的清洗流程 (Cleaning Automatically by Self-Training, CAST),得到 WebFace42M,是目前全球规模最大的可直接用于训练的干净人脸数据集。该数据集包含 200 万 ID 和 4200 万图片,ID 数目和图片数目相比目前使用最广泛、最受认可的公开数据集 MS1MV2 都提高了一个数量级以上。


针对目前人脸识别的评测问题,研究人员发布了更贴近实际应用的“时间受限人脸识别评测准则”-FRUITS (Face Recognition Under Inference Time conStraint),和分布更广泛、更具挑战性、分类更细致的人脸测试集,这将推动人脸识别评测更靠近真实场景。同时,**研究人员将持续维护、迭代和升级该测试集以及评测系统,**助力行业技术发展。


数据集共同作者、芯翌科技 AI 算法技术总监黄冠表示:“基于发布的数据集、测试准则和测试集,我们进行了广泛的实验、对比和分析。分析结果表明,在新的高一个数量级的大规模数据、更贴近实际应用的评测准则、更具挑战的测试集等多项内容的综合评判下,大规模人脸识别问题在算法、系统、数据、评测等各个方面,存在相当多的问题需要学术界和工业界一起去探索和解决。”

WebFace260M 数据集指标


基于 WebFace260M 清洗得到的 WebFace42M 数据,能够在目前公开的、最具挑战性的 IJBC 测试集上,达到新的 SOTA (State-Of-The-Art),并把相对错误率降低了 40%。


基于WebFace42M,在IJBC测试集上取得了SOTA的性能


同时,仅基于 WebFace42M 的数据,芯翌科技在 2020 年 10 月 NIST-FRVT 的榜单上,取得了 1:1 人脸识别评测综合排名世界前三的成绩。



更进一步,以 WebFace42M 为基础,在 2021 年 3 月最新一期的 NIST-FRVT 榜单上,芯翌科技在戴口罩人脸识别评测中以绝对优势获得世界第一,并在 1:1 人脸识别评测综合排名世界前三。


打造开放、共享、安全的数据生态


芯翌科技研发副总裁都大龙表示:“在数字经济和智能化时代,数据资源是最宝贵的生产资料。人们可能需要像对待传统的生产资料,如土地资源、生产原料、工具设备等一样,去规划、生产、分享、交易、使用和保护新时代的生产资料——数据资源。”



然而目前,国内外普遍对数据资源这一重要的生产资料重视程度不够,行业规范不足,分享壁垒严重,缺乏长期规划。生产资料的匮乏,严重影响和制约了数字经济和智能化时代生产力的释放,限制了行业的发展。


芯翌科技和清华大学的研究人员深刻认识到数据资源对行业发展的重要性,合作推出了目前全球最大的公开人脸数据集——WebFace260M 以及相应的 Benchmark。通过这个数据集,希望能够助力 AI 时代科技创新,持续推动智能化产业落地。同时,也希望和整个学术界、产业界一起,打造智能化时代开放、共享、安全的数据生态。

2021-03-16 09:351125

评论

发布
暂无评论
发现更多内容

体验不尽,进化不止,看视频云技术六大创新

阿里云视频云

阿里云 视频云 云栖大会 2022云栖大会

文档管理系统平台:实现文档管理现代化

Baklib

利刃出鞘 | 从五大核心技术来看Bonree ONE 2.0的全球竞争力

博睿数据

可观测性 核心技术 智能运维 博睿数据 ONE平台

Apache Doris Join 实现与调优实践|未来源码

MobTech袤博科技

算法题学习---判断链表中是否有环

桑榆

算法题 11月月更

vue数据代理

我搬去水星了

vue cli 11月日更 11月月更

简单概述理解vue的MVVM模型

张三丰无极

vue cli 11月日更 11月月更 #11月月更

是谁的请求导致我的系统一直抛异常?

阿里巴巴云原生

阿里云 微服务 云原生

手动在CentOS7.4环境下,安装MySQL5.7.X版本的方法。

@下一站

MySQL 程序猿 11月月更

为什么要做数据分析

穿过生命散发芬芳

数据分析 11月月更

Vue基础学习(三)

Studying_swz

Vue 11月月更

【愚公系列】2022年11月 微信小程序-app.json配置属性之tabBar

愚公搬代码

11月月更

【iOS逆向】小陈手牵手带你看懂iOS伪代码

小陈

移动安全 iOS逆向 ios安全

鱼传科技:函数计算,只要用上就会觉得香

阿里巴巴云原生

阿里云 云原生 函数计算

月日均AUM提升40倍!看这家银行如何做好网金客群分层经营?

索信达控股

科技 客户分群 网金客群

腾讯蓝鲸 API 网关如何借助 APISIX 实现产品升级与业务完善

Apache APISIX 中文社区

云原生 API网关 APISIX 客户案例

下一代龙蜥操作系统 Anolis OS 23 公测版正式发布|2022云栖龙蜥实录

OpenAnolis小助手

开源社区 龙蜥操作系统 分层分类 2022云栖大会 Anolis23

让开发者成为决定性力量,华为开发者英雄汇圆满落幕

华为云开发者联盟

云计算 华为云 企业号十月 PK 榜

2022-11-10:写一个 bash 脚本以统计一个文本文件 words.txt 中每个单词出现的频率。 为了简单起见,你可以假设: words.txt只包括小写字母和 ‘ ‘ 。 每个单词只由小写

福大大架构师每日一题

bash Shell 福大大

华为全联接2022 openEuler 累计装机量达 245 万套,市场份额 22%,助力企业高效进行操作系统迁移

Geek_2d6073

基于HTML5的爱心表白动画特效

向阳逐梦

HTML5, CSS3 11月月更 爱心代码

世界杯叠加购物节日,预计用户消费和品牌营销将迎来大幅增长

易观分析

泛内容

跟着卷卷龙一起学Camera--低延迟03

卷卷龙

ISP camera 11月月更

如何解决产品知识培训问题?

Baklib

HMS Core的AI之力与开发者的英雄本色

脑极体

化繁为简|AIRIOT智慧水务信息化建设解决方案

AIRIOT

物联网 智慧水务

Prometheus Native Histograms 实现原理及应用

Grafana 爱好者

云原生 可观测性 Prometheus 11月月更

什么是API

阿泽🧸

API 11月月更

butterfly美化日记(一)

程序员余白

Hexo butterfly 博客配置 11月月更

C++语言基础篇

叶秋学长

c++ 程序员 面经 11月月更

大数据技术&面试 资料分享

大数据Akin

大数据 面试 数据仓库 资料整理 资料分享

清华大学和芯翌科技联合发布全球最大的公开人脸数据集_AI_芯翌科技_InfoQ精选文章