写点什么

微软删除了世界上最大的公开人脸识别数据库 MS Celeb

  • 2019-06-11
  • 本文字数:1776 字

    阅读完需:约 6 分钟

微软删除了世界上最大的公开人脸识别数据库MS Celeb

外媒报道,微软从互联网上悄然删除了 MS Celeb 数据库,该数据库包含了超过 1000 万张、约为 10 万人的人脸图像,主要被用于人脸识别。



我们查看了MS Celeb官网,发现该网站已经变成了 404,但是微软关于该数据库的相关介绍页面还存在,根据超神经(hyper.ai)显示,MS Celeb 上次更新是在 3 周前。

为什么要删除 MS Celeb 数据库?

MS Celeb 是世界上最大的公开人脸识别数据库,其中包含的人脸图像基本都来自公众人物。但是据英国《金融时报》报道,数据库中采集的很多图像的主人并没有授权这一行为,MS Celeb 数据库是通过“知识共享”(Creative Commons )许可证来抓取和搜索图像的。


另外,虽然 MS Celeb 方称数据库中照片均来自于名人,但是柏林研究员 Adam Harvey 认为这里“名人”的定义相当广泛,该数据库中还包含了很多记者、艺术家、音乐家、活动家、决策者、作家和学者的照片。《金融时报》联系了存储在该数据库中的照片的当事人,他们表示并不知道自己的照片已经被收录,其中科技类作家 Adam Greenfield 表示:“我绝不是一个公众人士,没有办法放弃自己的隐私权。”


由于数据库所使用的照片,没有征得照片当事人的同意,所以微软根据《知识共享许可协议》已将他们的面部数据信息从搜索引擎和视频中删除。微软方面表示:“当初建立该网站的目的是为了学术需求。后来该网站交由不再与微软合作的员工运营,而现在该网站已被移除。”

MS Celeb 是什么?

MS Celeb 数据集是由全世界的 100 万位名人的图像组成的数据集,主要用于身份鉴定研究。MS Celeb 的训练数据集会从这 100 万名人中,根据受欢迎程度挑选排名在前 10 万的名人,然后利用公共搜索引擎为每个名人搜索大约 100 张图片,最终产生 1000 万张网络图像。


MS Celeb 数据集是微软于 2006 年发布的,主要发布人包括 Yandong Guo、Lei Zhang、Yuxiao Hu 、Xiaodong He、 Jianfeng Gao。如果想更加深入的了解 MS Celeb 数据库,可以查看该论文。

MS Celeb 真的会被彻底删除吗?

虽然 MS-Celeb 数据库现在已经被微软移除,但是在被移除之前,已经被广泛应用于面部识别程序。据了解,目前有多个商业组织使用了 MS Celeb 数据库,包括 IBM、松下电气、阿里巴巴、辉达、日立、商汤科技、旷视科技等等。


此次微软移除 MS Celeb 数据库,是否意味着它再也不能被使用了?其实并不是这样,据了解之前下载过 MS Celeb 的研究人员和公司仍可正常使用,而且用于处理数据库的工具也可被正常访问。柏林研究员 Adam Harvey 表示:“虽然 msceleb.org 网站关闭了,但该数据集仍然存在于 GitHub 上的存储库中,这是无数研究人员的硬盘驱动器,并且可能会继续用于世界各地的研究项目。”

隐私安全 VS 人脸识别

除了微软移除 MS Celeb 数据库,还有另外两个学术单位也删除了相关的数据库,分别是由杜克大学研究人员建造的 Duke MTMC 监控数据库和斯坦福大学的 Brainwash 数据库。


Duke MTMC 数据集是一个大规模标记的多目标多摄像机行人跟踪数据集。它提供了一个由 8 个同步摄像机记录的新型大型高清视频数据集,具有 7000 多个单摄像机轨迹和超过 2700 多个独立人物,Duke MTMC-reID 是 Duke MTMC 数据集的行人重识别子集,并且提供了人工标注的 bounding box。


Brainwash 数据库使用的信息来自旧金山下海区的 Brainwash 咖啡馆的顾客,他们通过直播相机拍摄登门的消费者。斯坦福大学发言人表示,在其中一位研究者提出要求后,已经删除了数据库,该校致力保护学校和社区的个人隐私。


事实上,关于隐私安全和人脸识别的讨论早已有之,人脸识别的反对方更注重隐私安全,他们认为随着 AI 技术的发展,人脸识别的应用已经超过了实际用途,甚至变成了实时监控公民隐私的危险工具。2019 年 5 月,美国旧金山立法机构通过了禁止官方使用人脸识别技术的新法令,旧金山成为了全球首个官方被禁止使用人脸识别技术的城市。


而支持方则认为大家对人脸识别技术过度担心了,我们应该监管人脸识别,而不是完全禁止。 根据国际权威调研机构 Gen Market Insights 发布了《全球人脸识别设备市场研究报告 2018》显示:“2017 年,全球人脸识别设备市场价值为 10.7 亿美元,到 2025 年底将达到 71.7 亿美元,在 2018 年至 2025 年期间将以 26.8%的速度增长。”


所以,在人脸识别发展的道路上,我们要更加重视数据的共享和开放,相关研究单位、企业更要主动积极推动行业标准规范,维护采集、存储的数据安全。


2019-06-11 09:468244
用户头像

发布了 497 篇内容, 共 332.8 次阅读, 收获喜欢 1925 次。

关注

评论

发布
暂无评论
发现更多内容

7-1 银行家算法--安全性检查 (20 分)(思路+详解+知识分析)宝 你今天 AC了吗

爱好编程进阶

Java 程序员 后端开发

开源字节系统白皮书

源字节1号

软件开发

如何登录到你的 WordPress 管理仪表板

海拥(haiyong.site)

5月月更

Git进阶系列 | 4. 合并冲突

俞凡

git 最佳实践

Git进阶系列 | 6. 交互式Rebase

俞凡

git 最佳实践

[Day34]-[二叉树]有序链表转换二叉搜索树

方勇(gopher)

LeetCode 二叉树 数据结构和算法

超级原始人系列盲盒即将上线,PlatoFarm赋能超多权益

西柚子

1篇文章全面总结2020年Java面试知识,掌握这些你也能进大厂!

爱好编程进阶

程序员 后端开发

30道经典的Java基础面试题集锦

爱好编程进阶

程序员 后端开发

3年CRUD程序员3个月啃完这份524页PDF成功涨9k!

爱好编程进阶

Java 程序员 后端开发

《数据中心白皮书 2022》揭秘“东数西算”下数据中心高性能计算的六大趋势八大技术

GPU算力

互联网跨界造芯的“菊与刀”

IC男奋斗史

芯片 芯片行业思考

13W字!银四巨作:Java进阶架构师核心手册

爱好编程进阶

Java 程序员 后端开发

不造芯,不配做互联网巨头

IC男奋斗史

芯片行业思考

使用MyBatis-Plus代码生成器(数据库MySQL/Sqlite

芝士味的椒盐

Java mybatis 5月月更

2021-03-26【PTA】

爱好编程进阶

程序员 后端开发

2021-3-29 【PTA】

爱好编程进阶

Java 程序员 后端开发

2021秋招运维工程师岗位常考的知识点

爱好编程进阶

Java 程序员 后端开发

【愚公系列】2022 年 05 月 二十三种设计模式(三)-建造者模式(Builder Pattern)

愚公搬代码

5月月更

Git进阶系列 | 3. 基于Pull Request实现更好的协作

俞凡

git 最佳实践

用户体验思维 7 大陷阱

龙国富

产品设计 UI UX 用户体验 产品设计与思考

毕业设计-设计电商秒杀系统

默光

秒杀架构设计 架构训练营5期

都2022了,不会还有人不会idea注释相关的配置吧,速进本文

芝士味的椒盐

Java IDEA 5月月更

Git进阶系列 | 5. Rebase vs Merge

俞凡

git 最佳实践

130道BATJM真题及解析:集合+Spring

爱好编程进阶

Java 程序员 后端开发

2021-11-27【算法竞赛入门到进阶】

爱好编程进阶

程序员 后端开发

28天面试突击:JVM+Redis

爱好编程进阶

程序员 后端开发

30分钟掌握沧湖一体化:flink+hudi

爱好编程进阶

程序员 后端开发

2020字节跳动秋招技术面试题:Kafka+反射

爱好编程进阶

Java 程序员 后端开发

2021-3-20 【推箱子】

爱好编程进阶

Java 程序员 后端开发

2021年学习Java还有意义吗?

爱好编程进阶

Java 程序员 后端开发

微软删除了世界上最大的公开人脸识别数据库MS Celeb_数据库_田晓旭_InfoQ精选文章