NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

不快乐的劳动力,决定了 AI 的未来

  • 2022-02-23
  • 本文字数:3148 字

    阅读完需:约 10 分钟

不快乐的劳动力,决定了AI的未来

本文最初发表于 unite.ai,经原作者 Martin Anderson 授权,InfoQ 中文站翻译并分享。

 

两份最新的论文指出:当前的趋势是,那些工资低廉、经常被剥夺权利的、来自全球的随机零工,为机器学习系统创造基准真相(Ground Truth)。这可能对人工智能产生重大的下游影响。这无疑是个糟糕的消息。而更糟糕的是,补救措施要么昂贵,要么耗时,要么既昂贵又耗时。

 

这两篇论文中,第一篇论文是由谷歌的五名研究人员撰写的,题目是《谁的基准真相?数据集标注背后的个体和集体的身份说明》(Whose Ground Truth? Accounting for Individual and Collective Identities Underlying Dataset Annotation);第二篇论文是由纽约雪城大学(Syracuse University)的两位研究人员撰写的,题目是《数据标注者之间分歧的起源和价值:仇恨言论标注中个体差异的案例研究》(The Origin and Value of Disagreement Among Data Labelers: A Case Study of Individual Differences in Hate Speech Annotation)。

 

谷歌的论文指出,众包工人自身的偏见可能会被植入到人工智能系统中,而人工智能系统的基准真相就是基于这些人的反应。这些众包工人经常在一系列限制条件下工作,这可能会影响他们对实验任务的反应方式。

 

例如,亚马逊 Mechanical Turk 的现行政策就允许请求者(那些分发任务的人)拒绝标注者的工作而无须承担责任:

 

绝大多数的众包工人(94%)都有过被拒绝的工作经历,或者没有得到报酬。但是,不管他们是接受还是拒绝,请求者都对他们收到的数据保留了全部权利。Roberts(2016) 将这种制度描述为“鼓励盗窃工资”。

 

拒绝工作和拖欠报酬是痛苦的,因为拒绝往往是由于不清晰的指示和缺乏有效的反馈渠道而导致的。许多众包工人报告说,沟通不畅会给他们的工作带来负面影响。

 

论文指出,利用外包服务来开发数据集的研究人员,应当思考众包平台是怎样对待其工人的。据悉,美国的众包工人被归为“独立承包商”,他们的工作既不受监管,也不受《公平劳动标准法案》(Fair Labor Standards Act)所规定的最低工资的保护。

标注者背景很重要

 

这篇论文还提出了一个批评,即在没有考虑到标注者背景的情况下,雇用临时的、来自全球的劳动力来进行标注。

 

如果预算允许,使用 AMT 和类似的众包平台的研究人员经常把同一个任务分配给四个标注者,并且在结果上遵循“多数原则”。

 

论文认为,标注者的背景显然未被重视。比如,当三名 18~57 岁的男性和一名 29 岁的女性被随机地分配了一项关于性别歧视的任务,那么男性的判决将获得胜利,除非研究人员注意到这些标注者的背景信息,这种情况相对罕见。

 

类似地,一个有关芝加哥帮派行为的问题,分配给一名 36 岁的美国农妇、一名 42 岁的芝加哥男性居民以及两名分别来自班加罗尔和丹麦的标注者,在标准的外包配置中,最容易受到这个问题影响的人(芝加哥男性)在结果中只占有四分之一的份额。

 

研究人员表示:

 

“唯一真相”这一概念在众包回应中是个神话。标注者之间的分歧往往被认为是消极的,但事实上却能为人们提供有价值的信息。其次,由于许多众包标注者在社会人口统计学方面存在一定的偏差,这就会影响到哪些人是数据集的代表,哪些人将面对众包的挑战。

 

解释标注者人口统计学上的偏差是数据收集和确保负责任的下游应用的关键。总之,认同和顾及众包工人的社会和文化背景,不管从数据质量或社会影响上来说,都是很有意义的。

不存在对热点问题的“中立”观点

 

即使四名标注者的观点在人口统计学上或其他一些指标上都不存在偏差,但谷歌的这篇论文仍然担心研究人员没有将标注者的人生阅历或哲学取向纳入考量:

 

虽然有些任务倾向于提出有正确答案的客观问题(例如 “is there a human face in an image?”),但很多时候,数据集的目的是捕捉对相对主观的任务的判断,而非一个普遍正确的答案(例如 “is this piece of text offensive?”)。关键在于,它是否取决于标注者的主观判断。

 

针对仇恨言论标签问题的具体范围,雪城大学的论文提出了更为直截了当的问题,比如“Is there a cat in this photograph?”,与询问众包工人某个短语是否“有毒”有显著不同:

 

由于社会现实的纷繁复杂,人们对于“有毒”的理解也各不相同。他们以自己的认识为基础,对有害的内容进行标注。

 

雪城大学的研究人员发现,个性和年龄对仇恨言论的维度标签有 “实质性影响”,他们得出结论:这些发现表明,在具有不同背景和个性的仇恨言论的标注者之间,要想获得标注一致性,这种努力可能永远不会取得完全成功

法官可能也会有偏见

 

雪城大学的论文指出,这种缺乏客观性的情况也有可能向上迭代。该论文认为,人为干预(或自动决策,也是由人决定)来决定共识投票的“赢家”,也应该受到审查。

 

作者将这一过程比作论坛审核,并指出:

 

社区版主可以通过对帖子进行加精或隐藏,以及对用户进行表彰、羞辱或禁止,来决定帖子和用户在社区中的命运。版主的决定会对向社区成员和受众传达的内容产生影响,并将会对社区的讨论体验产生影响。

 

假设一个人类版主是一个社区成员,与其他社区成员具有人口统计学上的同质性,那么他们用来评估内容的心理图式似乎有可能与其他社区成员的心理图式相匹配。

 

这为雪城大学的研究人员为何对仇恨言论标注的未来,得出如此令人沮丧的结论提供了一些线索。其含义是,针对不同的众包意见的政策和判决呼吁,不能只按照“可接受的”原则随意应用,而这些原则在任何地方都无法被遵循(或者不能简化为可适用的模式,即使它们确实存在)。

 

做决定的人(众包工人)是有偏见的,如果他们没有偏见,对于这样的任务来说就毫无意义,因为任务就是要做出价值判断;而那些对众包结果中的争议做出判决的人,在指定有争议的政策时,也是在做出价值判断。

 

仅仅一个仇恨言论检测框架就可能有数百种政策,如果不把所有的政策都纳入最高法院,那么“权威性”的共识是从哪里来的呢?

 

谷歌的研究人员建议,“标注者之间的分歧可能蕴含着关于任务的宝贵细微差别”。该论文建议在数据集中使用元数据,以反映和说明争议。

 

但是,我们很难看到,这个特定背景下的数据层是怎样产生类似的度量标准,符合已建立的标准测试需求,或者支持任何明显的结论,除非是在这种不现实的情况:在后续工作中使用同一组研究人员。

管理标注者库

 

所有这一切都是假设,一个研究项目甚至会有用于多个标注的预算,这些标注将导致共识投票。在许多情况下,研究人员试图通过指定众包工人应具备的特征,如地理位置、性别或者其他文化因素,以多元化换取特殊性,从而更廉价地“管理”外包标注者库。

 

谷歌的论文认为,应对这些挑战的方法可以是与标注者建立一个更大的沟通框架。

 

对标注者的如此仔细的考虑,自然会成为超大规模标注外包的障碍。最终导致要么出现更有限和低容量的数据集,要么标注者进行“仓促”评估,获得关于他们的有限细节,并且在信息不足的情况下,将他们定性为“适合任务”。这是在标注者诚实的前提下。

 

鉴于现有的劳动力报酬过低,对现有任务的竞争很激烈,并且职业前景渺茫,因此,标注员的动机就是要迅速提供“正确”的答案,并进行下一项小型任务。

 

雪城大学的论文认为,如果“正确答案”是比“有猫/无猫”更复杂的东西,众包工人也许会从问题的内容和上下文推导出“可接受的”答案。

 

替代性概念的扩散以及简单化的标注方法的广泛使用,都可以说是对网络仇恨言论研究进展的阻碍。例如,Ross 等人就发现,将 Twitter 中关于仇恨行为的定义告诉标注者,会使他们在一定程度上将自己的观点与定义相一致。这样的调整会使标注员之间标注的可信度非常低。

 

作者介绍:

 

Martin Anderson,记者、编辑,主要研究机器学习、人工智能和大数据。

 

原文链接:

 

https://www.unite.ai/the-invisible-often-unhappy-workforce-thats-deciding-the-future-of-ai/

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2022-02-23 18:002774

评论 1 条评论

发布
用户头像
这论文本身对于"工资低廉、经常被剥夺权利的、来自全球的随机零工"就是一种偏见,如何处理偏见正是人工智能要达到的目的之一,也是人工智能是否真的智能的评判标准之一.
2022-02-28 10:54
回复
没有更多了
发现更多内容

刷了LeetCode的链表专题,我发现了一个秘密!

Simon郎

Java 面试 链表

redis的stream类型命令详解

LLLibra146

redis stream 消息队列

TensorFlow 篇 | TensorFlow 数据输入格式之 TFRecord

Alex

tensorflow keras dataset tfrecord

一期二班 - 吴水金 - 第五课作业

吴水金

Polkadot系列(二)——混合共识详解

QTech

区块链 polkadot

5G时代的到来对直播的影响

anyRTC开发者

5G 音视频 WebRTC 直播 RTC

甲方日常 44

句子

工作 随笔杂谈 日常

看完这篇你还能不懂C语言/C++内存管理?

C语言与CPP编程

c c++ C语言 内存管理 编程开发

央视呼吁电商双十一少一些套路:应该严打网店套路营销

石头IT视角

第一届“多模态自然语言处理研讨会”精彩回顾(免费获取PPT)

京东科技开发者

人工智能 自然语言处理

JDK8中的新时间API:Duration Period和ChronoUnit介绍

程序那些事

java8 jdk8 新特性 程序那些事 时间API

推进AI融合 2020 LF AI & DATA DAY(AI开源日)即将召开

深度解读智能推荐系统搭建之路 | 会展云技术揭秘

京东科技开发者

人工智能 推荐系统

CloudQuery V1.2.0 版本发布

BinTools图尔兹

数据库 sql 编辑器 工具软件

高防服务器是什么?

德胜网络-阳

如何将MySQL查询优化到极致?

冰河

MySQL sql 性能优化 查询优化 查询

23张图!万字详解「链表」,从小白到大佬!

王磊

Java 数据结构与算法

网易云音乐基于 Flink + Kafka 的实时数仓建设实践

Apache Flink

flink

如何在面试中解释关键机器学习算法

计算机与AI

学习 数据科学

一场关于FLV是否要支持HEVC的争论

wangwei1237

技术文化

追风人与笃行者:云手机的2020风云录

脑极体

C++中的vector和Java中的ArrayList的构造函数的区别

jiangling500

Java c++ ArrayList vector

Redis-缓存雪崩,缓存击穿,缓存穿透

topsion

redis

vivo 云服务海量数据存储架构演进与实践

vivo互联网技术

数据库 架构 云服务 数据存储

送你4句口诀 云存储选型不再犯难

京东科技开发者

云存储

国内外互联网大厂工程师联合推荐:程序员三门课+151个建议

小Q

Java 学习 编程 程序员 开发

开源技术够用了么?我的 NAS 选型与搭建过程

LeanCloud

开源 NAS

Linux高级编程常用的系统调用函数汇总

哒宰的自我修养

Linux 线程 网络编程 进程 MySQL数据库

「排序算法」图解双轴快排

bigsai

排序算法 快速排序 双轴快排

设置Vmware中的Ubuntu为桥接模式

jiangling500

ubuntu vmware 桥接

面经手册 · 第16篇《码农会锁,ReentrantLock之公平锁讲解和实现》

小傅哥

Java 面试 小傅哥 ReentrantLock 公平锁

不快乐的劳动力,决定了AI的未来_AI&大模型_Martin Anderson_InfoQ精选文章