GMTC北京站9折购票倒计时,部分日程已上线,戳此查看 了解详情
写点什么

研究表明,有影响力的数据集正在垄断机器学习研究

  • 2022 年 1 月 07 日
  • 本文字数:2405 字

    阅读完需:约 8 分钟

研究表明,有影响力的数据集正在垄断机器学习研究

加州大学和谷歌研究院联合发表的一篇新论文称,少数来自高影响力的西方机构所发表的“基准”计算机数据集逐渐开始主导人工智能研究领域,而这些机构中不乏政府组织。


研究人员总结,这种倾向于使用常用开源数据集(如ImageNet)的趋势,将会带来各种现实和道德上,甚至政治层面的困扰。


基于 Facebook 社区项目“论文+代码(PWC)”中的核心数据,《减少、复用和回收:机器学习研究中数据集的一生》论文作者得出结论,“广泛使用的数据集仅由少数顶尖机构引入”,并且近几年来,这类现象已逐渐覆盖了 80%的数据集。


“(我们发现)全球数据集的使用情况愈发不平等。在我们的 43,140 个样本中,超过 50%样本所使用的数据集全部是由 12 个顶尖西方组织引入的。”


过去十年间非任务特定的数据集使用情况图示。只收录机构或公司占已有数据集使用的50%及以上的数据集。右图是随时间推移,机构和数据集二者的基尼系数数据集集中指数。来源:https://arxiv.org/pdf/2112.01716.pdf


其中主导的机构包括斯坦福大学、微软、普林斯顿、Facebook、谷歌、德国马普所,以及 At&T。十大数据集来源中有四个都是公司机构。


论文中还将这些倾向使用精英数据集的趋势描述为“让科学走向不平等的工具”。这是因为研究团队为寻求社区的认同,会更倾向于使用常用数据库以达到顶尖水平(SOTA),而不是自己生成一个全新的,在研究领域毫无地位的数据集,而其结果因为不是标准指标,因此还需要同行们重新适应的新数据集。


就如论文中阐述的一样,无论怎么说,对于资源不是那么充足的机构或团队来说,创造自己的数据集是一个成本高昂的追求。


“人们往往混淆 SOTA 基准所认可的科学有效性,与社会上由可信度高的研究者所展示、在一个接受度高的数据集上所实现的结果,即使更符合上下文的基准可能在技术上来说会更合适。


“我们认为,这些现象创造了一种“马修效应”(穷的越穷,富的越富),出身精英机构的成功基准将注定在研究领域中获得显著地位。”


减少、复用和回收:机器学习研究中数据集的一生》这篇论文是由加州大学洛杉矶分校的 Bernard Koch 与 Jacob G. Foster,谷歌研究院的 Emily Denton 与 Alex Hanna 合作编著。


该论文针对当前日益增长的整合趋势提出了不少问题,并在开放审查中得到了普遍的认可。来自 NeurIPS 2021 的一位审稿人评论说,这项研究“与任何参与机器学习研究的人都息息相关”,并预言它将成为大学课程的阅读材料之一。

从必要到腐败


论文作者称,目前这种“超越基准线”潮流的出现是为补偿客观评估工具的匮乏,而正是这种匮乏,导致了三十年前由于企业对新兴“专家系统”研究热情的消退,并第二次削减在人工智能领域的投资和兴趣:


基准线的设定通常是数据集在执行特定任务时,以其对应的标准评估后的结果。这种做法最初是在 1980 年代“AI 寒冬”后,由政府资助引入到机器学习研究中的,目的是为更准确地评估获得资助的项目价值。”


论文认为,这种非正式的标准化最初的优势在于降低了参加门槛、统一了评估尺标以及提供更灵活的开发机会。但随着数据体量日益强大足以在实质上定义其“使用条款”和影响范围时,这些优势已经被其自然而然带出的缺点所抵消。


对此,作者的观点与目前行业与学术界的想法一致,任何研究团队所提出的问题,如不能通过现有用作基准的数据库解决,则不能算作是新的发现。


作者同样还指出,盲目坚持少数“黄金”数据集会让研究者的结果过度拟合;研究得出的高性能结果将会更针对于某个数据集,但在现实数据、新的学术研究或是原始数据集中可能不会有太好表现,甚至是在其他的“黄金”数据集中也可能表现欠佳。


“鉴于大量研究高度集中在少数基准数据集中,我们认为多样化的评估形式对避免过度拟合现有数据集,扭曲该领域研究的进展尤为重要。 ”

计算机视觉研究中的政府影响


论文称,计算机视觉研究相较于其他 AI 研究,更易受前文中描述的现象所影响;而自然语言处理(NLP)受到的影响则更小。作者认为,这可能是因为 NLP 社区更“连贯”,规模也更大,并且 NLP 数据集无论是访问还是策划,都要容易得多,再加上其在数据收集方面资源密集程度也更低。


作者称,计算机视觉,尤其是面部识别(FR)数据集,更易引起企业、国家以及私人利益间的冲突。“企业和政府机构的目标(如监控)会与隐私相冲突,他们对(隐私与其目标)优先级的判定可能会与学术界或人工智能领域中更广泛的社会利益相关者相悖。”

  

对面部识别任务来说,研究者发现纯粹的学术性数据集的数量相较平均而言已有大幅的下降:


“八中之四的数据集(占总体用量的 33.69%)是完全由大企业、美国军方或中国政府(MS-Celeb-1M,CASIA-Webface,IJB-A,VggFace2)提供的。由于不同利益相关者关于隐私价值的争执,导致 MS-Celeb-1M 最终被撤回。”


用于图像生成和人脸识别研究社区的顶尖数据集使用分布。


从上图可看出,就如作者所言,近年来的图像生成或图像合成领域严重依赖于现有的,也更古老的数据集现象,哪怕这些数据集在当时创建时并不适用于图像生成。


事实上,目前数据集已有“迁离”其预期目的的趋势,令人质疑它们是否还适用于现今或冷门的研究需求。再加上研究经费的限制,研究的雄心壮志可能会被“一般化”到一个仅使用手头材料的狭窄框架,并日益痴迷于基准评级的研究氛围之中,从而导致新诞生的数据集很难获得应有的关注。


“我们的研究还表明,数据集经常在多个任务社区之间转移。最极端的情况下,某个任务社区中主要的基准数据集全部是为其他任务所创建的。”


近年来,机器学习领域包括 Andrew Ng 在内的多位知名人士,不断呼吁业内增加数据集的多样性和策展性,作者对此类倡导表示支持的同时,认为只要当前对 SOTA 结果和已有数据集依赖的研究氛围持续存在,这种努力终将功亏一篑。


“我们的研究表明,仅仅是改善奖励机制并呼吁 ML 研究人员开发更多数据集,让数据集的开发能够收到认可和回报,可能还不足以让数据集的使用以及最终确立 MLR 研究议程的观念真正变得多样化。”


“除了激励数据集的开发,我们主张引入以公平为导向的政策干预;优先为研究资源较少的机构提供大量资金,以创建高质量数据集。这将从社会和文化的双重角度,让评估现代 ML 方法的数据集多样化。”


原文链接:

https://www.unite.ai/a-cartel-of-influential-datasets-are-dominating-machine-learning-research-new-study-suggests/

2022 年 1 月 07 日 10:591530

评论

发布
暂无评论
发现更多内容

硬件产品管理(4):人体工程学验证

老壳有点爽

硬件产品 智能硬件 产品管理 人体工程学

键盘敲入 A 字母时,期间发生了什么....

小林coding

操作系统 计算机基础 键盘

ARTS Week13

时之虫

ARTS 打卡计划

编程的乐趣与苦恼

看山

随笔杂谈 人月神话

ARTS-WEEK11

一周思进

ARTS 打卡计划

浅谈 GET 和 POST 区别

叉叉敌

面试 post GET

高并发系统三大利器之限流

java金融

架构 高并发 分布式限流 限流 单机限流

如何做好项目时间管理?

石云升

项目管理 需求 项目排期

架构师训练营 - 第 8 周学习总结

红了哟

Python代码调试指南

王坤祥

Python Python基础

《我在一线做用户增长》读书笔记及感想

王新涵

用户增长

Java中的单例模式(完整篇)

看山

Java 设计模式 单例模式

(2.6w字)网络知识点灵魂拷问——前端面试必问

执鸢者

面试 大前端 网络 HTTP

速看!今天我才知道,UUID还分五个版本

麦洛

Java uuid

1.Flink任务之间通信开销-6

小知识点

scala 大数据 flink

程序员什么时候该考虑辞职

看山

随笔杂谈 辞职

Java ForEach语句判断是否为空

引花眠

bug

Java中的一些限制

xiaoxi666

我与游戏相伴【自我访谈2】

叶阳夏烟

系列 游戏 访谈录 剧情游戏 仙剑奇侠传

面试的时候不能做捧哏

escray

学习 面试

设计模式:建造者模式

看山

设计模式 建造者模式

什么是产品以及如何将一个开源软件项目产品化

常平

架构模式 架构设计 架构师 产品思维

高并发系统三大利器之缓存

java金融

Java 缓存 高并发 本地缓存 分布式缓存

ARTS打卡 第13周

引花眠

微服务 ARTS 打卡计划

顺时针遍历矩阵,提高系统高并发350倍,React Native原理浅析 组件设计原则 安全架构 防火墙ModSecurity John 易筋 ARTS 打卡 Week 14

John(易筋)

ARTS 打卡计划 组件设计原则 React Native 高并发优化

MacOS抓包工具Charles

叉叉敌

ios charles 抓包

硬件产品管理(5):硬件产品工作流程管理及案例分析

老壳有点爽

创业 硬件产品 智能硬件 产品管理

disruptor 高性能队列最佳选择

柿子

队列 disruptoer 高性能队列

【Elasticsearch 技术分享】—— ES 常用名词及结构

程序员小航

Java 搜索引擎 elastic ES Lucene Elastic Search

ARTS打卡(20.08.17-20.08.23)

小王同学

一家估值20亿美元的公司,竟然没有办公室?

Atlassian

远程办公 Atlassian Jira

研究表明,有影响力的数据集正在垄断机器学习研究_AI_Martin Anderson_InfoQ精选文章