写点什么

MIT 研究人员发现 ImageNet 数据集存在系统级缺陷

  • 2020-07-28
  • 本文字数:1775 字

    阅读完需:约 6 分钟

MIT 研究人员发现ImageNet数据集存在系统级缺陷

本文最初发表于 venturebeat,由 InfoQ 中文站翻译并分享


麻省理工学院研究人员得出结论,众所周知的 ImageNet数据集存在“系统注释问题”,当用作基准数据集时,与实际情况或直接观测结果并不一致。


“我们的分析明确指出,嘈杂的数据收集管道是如何导致结果基准与其作为代理的实际任务之间的系统性不一致的 ” , 麻省理工学院的研究人员 在一篇题为《从 ImageNet 到图像分类:基准测试的情景化进展》的论文中写道,“我们相信,开发能够更好地捕捉实际情况,同时又保持可扩展性的注释管道,是未来研究的重要途径。”


当斯坦福大学视觉实验室(Stanford University Vision Lab)在 2009 年的计算机视觉与模式识别大会 CVPR 上 介绍 ImageNet时,它比许多以前存在的图像数据集要大得多。ImageNet 的数据集包含数百万张照片, 这些照片是在两年多的时间里收集的。ImageNet 将 WordNet 层次结构用于数据标签,并被广泛用作物体识别模型的基准。直到 2017 年,ImageNet 的年度竞赛还在推进计算机视觉领域发挥着作用。



但是,在仔细研究 ImageNet 的“基准任务不一致”之后,麻省理工学院的研究小组发现,大约 20% 的 ImageNet 照片包含了多个物体。他们对多个物体识别模型的分析表明,在一张照片中有多个物体会导致整体正确率下降 10%。作者声称,这些问题的核心是用于创建像 ImageNet 这样的大规模图像数据集的数据收集管道。


“总的来说,这个[注释]管道表明,单个 ImageNet 标签并不总是足以捕获 ImageNet 图像内容。然而,当我们训练和评估的时候,我们将这些标签视为基本事实。”报告合著者、麻省理工学院博士生 Shibani Santurkar 在国际机器学习大会 ICML 上 介绍了这项研究结果。“因此,这可能会导致 ImageNet 基准测试与现实世界的物体识别任务之间出现不一致的现象,无论是在我们鼓励模型所做的特性方面,还是在我们如何评估它们的性能方面,都是如此。”


据研究人员的说法,大规模图像数据集的理想方法是收集世界上单个物体的图像,并由专家按照确切的类别对它们进行标注,但这并不便宜,而且也不容易进行扩展。相反,ImageNet 从搜索引擎和像 Flickr 这样的网站上收集图片。然后,通过 Amazon Mechanical Turk 这样的群众外包平台对从互联网搜索引擎收集来的图片进行分类标注。研究人员指出,给 ImageNet 照片标注的 Amazon Mechanical Turk 被要求专注于一个物体,而忽略了其他物体或遮挡物。研究人员称,其他大规模图像数据集也遵循类似的(而且可能还存在问题)管道。


为了评估 ImageNet,研究人员创建了一个管道,要求人类注释员从多个标签中选择一个与照片最相关的。然后,最常被选中标签被用来训练模型,以确定研究人员所说的“绝对基础事实”。


“我们利用的关键思想是利用模型预测实际增强 ImageNet 标签。具体来说,我们采用了多种模型,并将它们的前五个预测汇总起来,得到一组候选标签。” Santurkar 说。“然后,我们实际上通过使用人类注释员来确定这些标签的有效性,但我们不是询问他们单个标签是否有效,而是对多个标签单独重复这个过程。这使得我们能够确定与单个图像可能相关的标签集。”


但研究小组警告说,他们的方法并不完全符合基本事实,因为他们也使用了非专家数据标签。他们的结论是,对于不是专家的人类注释员来说,在某些情况下很难准确地对图像进行标注。例如,除非你是犬类专家,否则从 24 种梗类犬选择一种标签可能是很困难的。


该研究小组的论文在 5 月下旬 首次发表后,于日前被 ICML 接受发表。这篇论文在会议上发表之前, 麻省理工学院决定从互联网上删除 8000 万张小图数据集,并要求拥有该数据集副本的研究人员予以删除。这些措施是在研究人员提请注意数据集中的冒犯性标签,如 N 开头的词,以及针对女性的性别歧视属于和其他贬损性标签后采取的。研究人员对 2006 年发布的 8000 万张小图数据集进行了审核,结论是这些标签是 WordNet 层次结构的结果。


ImageNet 也使用 WordNet 层级结构, 在 ACM FaccT 会议上发表的一篇论文中,ImageNet 的创建者表示,他们计划删除数据集 Person 子树中几乎所有的约 2800 个类别。他们还列举了该数据的其他问题,比如缺乏图像多样性。

作者介绍:

Khari John,非裔美国人,住在旧金山东湾。是 VentureBeat 人工智能专栏作家。


原文链接:


https://venturebeat.com/2020/07/15/mit-researchers-find-systematic-shortcomings-in-imagenet-data-set/


2020-07-28 07:002585
用户头像
刘燕 InfoQ高级技术编辑

发布了 1112 篇内容, 共 580.8 次阅读, 收获喜欢 1981 次。

关注

评论

发布
暂无评论
发现更多内容

聪明人的训练(十七)

Changing Lin

4月日更

ScheduledThreadPoolExecutor源码解读(一)DelayedWorkQueue高度定制延迟阻塞优先工作队列

徐同学呀

线程池 Java源码 ScheduledThreadPool JUC

苏州园区:面向全国“发帖”聚力 加快创建区块链技术应用高地

CECBC

架构师实战营 模块二总结

代廉洁

架构实战营

HarmonyOS开发者日再现上海,生态最新进展、核心代码解析、创新案例分享

Geek_283163

读懂「数据」在区块链网络中流动的3种范式?

CECBC

区块链

极客架构模块2作业-朋友圈高性能架构分析

Geek_649372

架构实战营

阿里P8整理出SQL笔记:收获不止SOL优化抓住SQL的本质

Java架构之路

Java 程序员 架构 面试 编程语言

程序员3年CRUD从8K涨到20K,这4个月我到底经历了什么?

码农之家

编程 程序员 互联网 面试 职场

史上最强的:京东北极星商业系统权限管控实践

Java架构师迁哥

阿里架构师如是说:权限系统就该这么设计

Java架构师迁哥

Github霸榜数月!原来是阿里大牛最新的Java性能优化实战笔记

钟奕礼

Java 编程 程序员 架构 面试

openLooKeng如何应对“野蛮零散”的大数据

LooK

大数据 开源 openLooKeng

FutureTask源码解读,阻塞获取异步计算结果(阻塞、取消、装饰器、适配器、Callable)

徐同学呀

Java源码 JUC Future

增强产业链供应链自主可控能力,区块链能否贡献力量?

CECBC

区块链

阿里高工熬夜18天码出Java150K字面试宝典,却遭Github全面封杀

Java架构之路

Java 程序员 架构 面试 编程语言

Anolis OS 8.2 RC2 发行,支持飞腾、海光、兆芯、鲲鹏等芯片

阿里云基础软件团队

ThreadPoolExecutor源码解读(二)execute提交任务,Worker详解。如何执行任务?如何回收空闲线程?

徐同学呀

线程池 Java源码 JUC ThreadPoolExecutor

ThreadPoolExecutor源码解读(四)如何正确使用线程池(总结坑点+核心参数调优)

徐同学呀

ThreadPoolExecutor

ScheduledThreadPoolExecutor源码解读(二)ScheduledFutureTask时间调度执行任务(延迟执行、周期性执行)

徐同学呀

线程池 Java源码 ScheduledThreadPool JUC

架构实战营 - 模块 2- 作业

请弄脏我的身体

架构实战营

阿里高工熬夜14天码出这份Java10w字的面试手册!却遭GitHub封杀

Java架构之路

Java 程序员 架构 面试 编程语言

为极客时间增加自动提醒功能,督促用户回来上课

克比

ThreadPoolExecutor源码解读(三)如何优雅的关闭线程池(shutdown、shutdownNow、awaitTermination)

徐同学呀

线程池 Java源码 JUC ThreadPoolExecutor

【腾讯阿里最全面试题】Redis持久化RDB和AOF 的区别

Linux服务器开发

面试 后端 面经 Linux服务器开发

计算机原理学习笔记 Day8

穿过生命散发芬芳

计算机原理 4月日更

关于ReentrantReadWriteLock,首个获取读锁的线程单独记录问题讨论(firstReader和firstReaderHoldCount)

徐同学呀

AQS Java源码 JUC

CopyOnWriteArrayList源码解读之CopyOnWrite思想的利与弊

徐同学呀

Java源码 JUC CopyOnWriteArrayList

ThreadPoolExecutor源码解读(一)重新认识ThreadPoolExecutor(核心参数、生命周期、位运算、ThreadFactory、拒接策略)

徐同学呀

线程池 Java源码 JUC ThreadPoolExecutor

华为帐号服务学习笔记(四):Authorization Code模式服务端开发

Coding狙击

Java android

探索区块链Baas平台的奥秘,源中瑞公共服务平台开发技术

源中瑞-龙先生

区块链 源中瑞 Baas

MIT 研究人员发现ImageNet数据集存在系统级缺陷_AI&大模型_KHARI JOHNSON_InfoQ精选文章