【ArchSummit】如何通过AIOps推动可量化的业务价值增长和效率提升?>>> 了解详情
写点什么

研究表明,有影响力的数据集正在垄断机器学习研究

  • 2022-01-07
  • 本文字数:2405 字

    阅读完需:约 8 分钟

研究表明,有影响力的数据集正在垄断机器学习研究

加州大学和谷歌研究院联合发表的一篇新论文称,少数来自高影响力的西方机构所发表的“基准”计算机数据集逐渐开始主导人工智能研究领域,而这些机构中不乏政府组织。


研究人员总结,这种倾向于使用常用开源数据集(如ImageNet)的趋势,将会带来各种现实和道德上,甚至政治层面的困扰。


基于 Facebook 社区项目“论文+代码(PWC)”中的核心数据,《减少、复用和回收:机器学习研究中数据集的一生》论文作者得出结论,“广泛使用的数据集仅由少数顶尖机构引入”,并且近几年来,这类现象已逐渐覆盖了 80%的数据集。


“(我们发现)全球数据集的使用情况愈发不平等。在我们的 43,140 个样本中,超过 50%样本所使用的数据集全部是由 12 个顶尖西方组织引入的。”


过去十年间非任务特定的数据集使用情况图示。只收录机构或公司占已有数据集使用的50%及以上的数据集。右图是随时间推移,机构和数据集二者的基尼系数数据集集中指数。来源:https://arxiv.org/pdf/2112.01716.pdf


其中主导的机构包括斯坦福大学、微软、普林斯顿、Facebook、谷歌、德国马普所,以及 At&T。十大数据集来源中有四个都是公司机构。


论文中还将这些倾向使用精英数据集的趋势描述为“让科学走向不平等的工具”。这是因为研究团队为寻求社区的认同,会更倾向于使用常用数据库以达到顶尖水平(SOTA),而不是自己生成一个全新的,在研究领域毫无地位的数据集,而其结果因为不是标准指标,因此还需要同行们重新适应的新数据集。


就如论文中阐述的一样,无论怎么说,对于资源不是那么充足的机构或团队来说,创造自己的数据集是一个成本高昂的追求。


“人们往往混淆 SOTA 基准所认可的科学有效性,与社会上由可信度高的研究者所展示、在一个接受度高的数据集上所实现的结果,即使更符合上下文的基准可能在技术上来说会更合适。


“我们认为,这些现象创造了一种“马修效应”(穷的越穷,富的越富),出身精英机构的成功基准将注定在研究领域中获得显著地位。”


减少、复用和回收:机器学习研究中数据集的一生》这篇论文是由加州大学洛杉矶分校的 Bernard Koch 与 Jacob G. Foster,谷歌研究院的 Emily Denton 与 Alex Hanna 合作编著。


该论文针对当前日益增长的整合趋势提出了不少问题,并在开放审查中得到了普遍的认可。来自 NeurIPS 2021 的一位审稿人评论说,这项研究“与任何参与机器学习研究的人都息息相关”,并预言它将成为大学课程的阅读材料之一。

从必要到腐败


论文作者称,目前这种“超越基准线”潮流的出现是为补偿客观评估工具的匮乏,而正是这种匮乏,导致了三十年前由于企业对新兴“专家系统”研究热情的消退,并第二次削减在人工智能领域的投资和兴趣:


基准线的设定通常是数据集在执行特定任务时,以其对应的标准评估后的结果。这种做法最初是在 1980 年代“AI 寒冬”后,由政府资助引入到机器学习研究中的,目的是为更准确地评估获得资助的项目价值。”


论文认为,这种非正式的标准化最初的优势在于降低了参加门槛、统一了评估尺标以及提供更灵活的开发机会。但随着数据体量日益强大足以在实质上定义其“使用条款”和影响范围时,这些优势已经被其自然而然带出的缺点所抵消。


对此,作者的观点与目前行业与学术界的想法一致,任何研究团队所提出的问题,如不能通过现有用作基准的数据库解决,则不能算作是新的发现。


作者同样还指出,盲目坚持少数“黄金”数据集会让研究者的结果过度拟合;研究得出的高性能结果将会更针对于某个数据集,但在现实数据、新的学术研究或是原始数据集中可能不会有太好表现,甚至是在其他的“黄金”数据集中也可能表现欠佳。


“鉴于大量研究高度集中在少数基准数据集中,我们认为多样化的评估形式对避免过度拟合现有数据集,扭曲该领域研究的进展尤为重要。 ”

计算机视觉研究中的政府影响


论文称,计算机视觉研究相较于其他 AI 研究,更易受前文中描述的现象所影响;而自然语言处理(NLP)受到的影响则更小。作者认为,这可能是因为 NLP 社区更“连贯”,规模也更大,并且 NLP 数据集无论是访问还是策划,都要容易得多,再加上其在数据收集方面资源密集程度也更低。


作者称,计算机视觉,尤其是面部识别(FR)数据集,更易引起企业、国家以及私人利益间的冲突。“企业和政府机构的目标(如监控)会与隐私相冲突,他们对(隐私与其目标)优先级的判定可能会与学术界或人工智能领域中更广泛的社会利益相关者相悖。”

  

对面部识别任务来说,研究者发现纯粹的学术性数据集的数量相较平均而言已有大幅的下降:


“八中之四的数据集(占总体用量的 33.69%)是完全由大企业、美国军方或中国政府(MS-Celeb-1M,CASIA-Webface,IJB-A,VggFace2)提供的。由于不同利益相关者关于隐私价值的争执,导致 MS-Celeb-1M 最终被撤回。”


用于图像生成和人脸识别研究社区的顶尖数据集使用分布。


从上图可看出,就如作者所言,近年来的图像生成或图像合成领域严重依赖于现有的,也更古老的数据集现象,哪怕这些数据集在当时创建时并不适用于图像生成。


事实上,目前数据集已有“迁离”其预期目的的趋势,令人质疑它们是否还适用于现今或冷门的研究需求。再加上研究经费的限制,研究的雄心壮志可能会被“一般化”到一个仅使用手头材料的狭窄框架,并日益痴迷于基准评级的研究氛围之中,从而导致新诞生的数据集很难获得应有的关注。


“我们的研究还表明,数据集经常在多个任务社区之间转移。最极端的情况下,某个任务社区中主要的基准数据集全部是为其他任务所创建的。”


近年来,机器学习领域包括 Andrew Ng 在内的多位知名人士,不断呼吁业内增加数据集的多样性和策展性,作者对此类倡导表示支持的同时,认为只要当前对 SOTA 结果和已有数据集依赖的研究氛围持续存在,这种努力终将功亏一篑。


“我们的研究表明,仅仅是改善奖励机制并呼吁 ML 研究人员开发更多数据集,让数据集的开发能够收到认可和回报,可能还不足以让数据集的使用以及最终确立 MLR 研究议程的观念真正变得多样化。”


“除了激励数据集的开发,我们主张引入以公平为导向的政策干预;优先为研究资源较少的机构提供大量资金,以创建高质量数据集。这将从社会和文化的双重角度,让评估现代 ML 方法的数据集多样化。”


原文链接:

https://www.unite.ai/a-cartel-of-influential-datasets-are-dominating-machine-learning-research-new-study-suggests/

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2022-01-07 10:592006

评论

发布
暂无评论
发现更多内容

Poe会员开通保姆级教程

跨境

PoE ChatGPT

IPQ9574 vs IPQ9554 vs IPQ9514 How to choose a CPU for Industrial use?|WiFi7

wallyslilly

ipq9554 ipq9574

释放潜力:BRC-20代币综合指南

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

1.4亿人都在用|伊对APP x 阿里云PolarDB:这一对,天生配

阿里云瑶池数据库

数据库 阿里云 云原生 Servless

低代码:拒绝重复、低价值的工单循环开发

互联网工科生

软件开发 造轮子 JNPF

如何创建海外美区Apple ID,并绑定信用卡,十分钟学会

跨境

VISA appleID

云计算与低代码:加速创新与开发的完美结合

快乐非自愿限量之名

云计算 低代码 创新

springboot智慧导诊系统源码:根据患者症状匹配挂号科室

源码星辰

源码 Java、 智慧导诊 智能导诊 医院导诊

软件测试/测试开发|一文告诉你什么是测试用例

霍格沃兹测试开发学社

软件测试/测试开发丨cookie 复用 学习笔记

测试人

软件测试

阿里巴巴中国站1688商品评论API:实时数据获取与应用的探索

Noah

【代码混淆】react-native 代码混淆

雪奈椰子

onlyfan怎么绑卡??

跨境

VISA only

初见 Amazon Q

亚马逊云科技 (Amazon Web Services)

re:Invent 亚马逊云科技 生成式人工智能 Amazon Q

IPQ5018+QCN9024 card-what High-performance processor with dual and quad Ethernet?

wifi6-yiyi

ipq5018 QCN9024

Keepalived 高可用详解

快乐非自愿限量之名

nginx Linux 源码分析

运用ETL快速拉取吉客云平台订单信息

RestCloud

数据同步 ETL 吉客云

美区PayPal注册教程

跨境

PayPal VISA

阿里云OpenSearch-LLM智能问答故障的一天

WizInfo

AIGC LLM

申请虚拟VISA卡Fomepay保姆级教程来了!

跨境

VISA

软件测试/测试开发|软件测试基础概念

霍格沃兹测试开发学社

软件测试/测试开发|测试用例设计和评审应该怎么做,一篇文章告诉你?

霍格沃兹测试开发学社

2023 IoTDB Summit:美国国家工程院院士 Prof. C. Mohan《物联网时代的数据库挑战、技术与方向》

Apache IoTDB

探索前端开发趋势:2023年的新兴技术与发展方向

不在线第一只蜗牛

前端 Web 前端开发

跨境电商测评攻略及其工具海外云手机的介绍

Ogcloud

电商 跨境电商

公有云与私有云的区别在哪?选择公有云是否真的会泄露隐私?

Finovy Cloud

公有云 私有云 私有云平台

低代码选型注意事项

高端章鱼哥

低代码 选型

EMQ 与 Confluent 建立全球合作伙伴关系:推动 MQTT 与 Kafka 无缝集成

新消费日报

程序员视角体验快速搭建智能客服中心

亚马逊云科技 (Amazon Web Services)

AIGC

深入云原生:基于 KubeWharf 的深度剖析

小王撤了

KubeWharf

揭秘淘宝商品详情API接口(app、h5端)获取新途径

tbapi

淘宝API接口 天猫商品详情数据接口 淘宝商品详情接口 淘宝商品详情API接口 天猫商品详情接口

研究表明,有影响力的数据集正在垄断机器学习研究_AI&大模型_Martin Anderson_InfoQ精选文章