MIT 研究人员发现ImageNet数据集存在系统级缺陷_AI&大模型_KHARI JOHNSON

东亚银行、岚图汽车带你解锁 AIGC 时代的数字化人才培养各赛道新模式！了解详情 



 写点什么

本文最初发表于 venturebeat，由 InfoQ 中文站翻译并分享

麻省理工学院研究人员得出结论，众所周知的 ImageNet数据集存在“系统注释问题”，当用作基准数据集时，与实际情况或直接观测结果并不一致。

“我们的分析明确指出，嘈杂的数据收集管道是如何导致结果基准与其作为代理的实际任务之间的系统性不一致的 ” ，麻省理工学院的研究人员在一篇题为《从 ImageNet 到图像分类：基准测试的情景化进展》的论文中写道，“我们相信，开发能够更好地捕捉实际情况，同时又保持可扩展性的注释管道，是未来研究的重要途径。”

当斯坦福大学视觉实验室（Stanford University Vision Lab）在 2009 年的计算机视觉与模式识别大会 CVPR 上介绍 ImageNet时，它比许多以前存在的图像数据集要大得多。ImageNet 的数据集包含数百万张照片，这些照片是在两年多的时间里收集的。ImageNet 将 WordNet 层次结构用于数据标签，并被广泛用作物体识别模型的基准。直到 2017 年，ImageNet 的年度竞赛还在推进计算机视觉领域发挥着作用。

但是，在仔细研究 ImageNet 的“基准任务不一致”之后，麻省理工学院的研究小组发现，大约 20% 的 ImageNet 照片包含了多个物体。他们对多个物体识别模型的分析表明，在一张照片中有多个物体会导致整体正确率下降 10%。作者声称，这些问题的核心是用于创建像 ImageNet 这样的大规模图像数据集的数据收集管道。

“总的来说，这个[注释]管道表明，单个 ImageNet 标签并不总是足以捕获 ImageNet 图像内容。然而，当我们训练和评估的时候，我们将这些标签视为基本事实。”报告合著者、麻省理工学院博士生 Shibani Santurkar 在国际机器学习大会 ICML 上介绍了这项研究结果。“因此，这可能会导致 ImageNet 基准测试与现实世界的物体识别任务之间出现不一致的现象，无论是在我们鼓励模型所做的特性方面，还是在我们如何评估它们的性能方面，都是如此。”

据研究人员的说法，大规模图像数据集的理想方法是收集世界上单个物体的图像，并由专家按照确切的类别对它们进行标注，但这并不便宜，而且也不容易进行扩展。相反，ImageNet 从搜索引擎和像 Flickr 这样的网站上收集图片。然后，通过 Amazon Mechanical Turk 这样的群众外包平台对从互联网搜索引擎收集来的图片进行分类标注。研究人员指出，给 ImageNet 照片标注的 Amazon Mechanical Turk 被要求专注于一个物体，而忽略了其他物体或遮挡物。研究人员称，其他大规模图像数据集也遵循类似的（而且可能还存在问题）管道。

为了评估 ImageNet，研究人员创建了一个管道，要求人类注释员从多个标签中选择一个与照片最相关的。然后，最常被选中标签被用来训练模型，以确定研究人员所说的“绝对基础事实”。

“我们利用的关键思想是利用模型预测实际增强 ImageNet 标签。具体来说，我们采用了多种模型，并将它们的前五个预测汇总起来，得到一组候选标签。” Santurkar 说。“然后，我们实际上通过使用人类注释员来确定这些标签的有效性，但我们不是询问他们单个标签是否有效，而是对多个标签单独重复这个过程。这使得我们能够确定与单个图像可能相关的标签集。”

但研究小组警告说，他们的方法并不完全符合基本事实，因为他们也使用了非专家数据标签。他们的结论是，对于不是专家的人类注释员来说，在某些情况下很难准确地对图像进行标注。例如，除非你是犬类专家，否则从 24 种梗类犬选择一种标签可能是很困难的。

该研究小组的论文在 5 月下旬首次发表后，于日前被 ICML 接受发表。这篇论文在会议上发表之前，麻省理工学院决定从互联网上删除 8000 万张小图数据集，并要求拥有该数据集副本的研究人员予以删除。这些措施是在研究人员提请注意数据集中的冒犯性标签，如 N 开头的词，以及针对女性的性别歧视属于和其他贬损性标签后采取的。研究人员对 2006 年发布的 8000 万张小图数据集进行了审核，结论是这些标签是 WordNet 层次结构的结果。

ImageNet 也使用 WordNet 层级结构，在 ACM FaccT 会议上发表的一篇论文中，ImageNet 的创建者表示，他们计划删除数据集 Person 子树中几乎所有的约 2800 个类别。他们还列举了该数据的其他问题，比如缺乏图像多样性。

作者介绍：

Khari John，非裔美国人，住在旧金山东湾。是 VentureBeat 人工智能专栏作家。

原文链接：

https://venturebeat.com/2020/07/15/mit-researchers-find-systematic-shortcomings-in-imagenet-data-set/

公众号推荐：

2024 年 1 月，InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》，揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步，预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」，回复「大模型报告」免费获取电子版研究报告。

发布

暂无评论

创作场景

MIT 研究人员发现 ImageNet 数据集存在系统级缺陷

作者介绍：

公众号推荐：

评论

读懂框架设计的灵魂—Java反射机制

Protobuf源码解读之编解码

话题讨论 | 你”节后综合症“了吗？

2021最新总结：阿里/京东/饿了么/拼多多/爱奇艺面经分享（堪称Offer收割机）

开源微服务运行时 Dapr 发布 1.0 版本

快速搭建本土「Clubhouse」

第二次书摘的微信视频号直播复盘

Java训练营第一周习题：01字节码分析

话题讨论 | 技术从入门到熟练是怎样的?

深入理解 Web 协议(三)：HTTP 2

60K*17薪的面试题是什么样的，需要具备什么技术？首发“Java面试考点大全”

面试腾讯T3，过关斩将直通3面，终斩获offer流下了激动的泪水（腾讯面经总结分享）

使用 RxJS 设计实现一个下载中心功能

区块链电子合同应用平台,区块链存证系统

智慧组工党务解决方案,智慧党建系统

读书笔记-MySQL索引

LeetCode题解：322. 零钱兑换，动态规划，JavaScript，详细注释

基于simhash的文本去重原理

【LeetCode】爱生气的书店老板Java题解

农产品区块链溯源平台,区块链溯源方案

IAR故障解决：由于找不到mfc140u.dll，无法继续执行代码

做一个很出色的程序员

趣谈哈希表优化：从规避 Hash 冲突到利⽤ Hash 冲突

从架构设计的演进来看，我们真的需要DDD

日记 2021年2月23日(周二)

架构设计篇之微服务实战笔记（四）

互联网员工下班时间曝光：所有的光鲜，都有加班的味道

1月干货总结：EasyDL上线时序预测模型，文档翻译全新发布

为了面试阿里巴巴、腾讯、字节跳动、京东、华为等大厂，我收集了8家大厂高频Java面试真题集锦（含答案）

jenkins Android 自动构建-扫码下载

产品训练营第五周作业

创作场景

MIT 研究人员发现 ImageNet 数据集存在系统级缺陷

作者介绍：

公众号推荐：

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载