写点什么

不快乐的劳动力,决定了 AI 的未来

  • 2022-02-23
  • 本文字数:3148 字

    阅读完需:约 10 分钟

不快乐的劳动力,决定了AI的未来

本文最初发表于 unite.ai,经原作者 Martin Anderson 授权,InfoQ 中文站翻译并分享。

 

两份最新的论文指出:当前的趋势是,那些工资低廉、经常被剥夺权利的、来自全球的随机零工,为机器学习系统创造基准真相(Ground Truth)。这可能对人工智能产生重大的下游影响。这无疑是个糟糕的消息。而更糟糕的是,补救措施要么昂贵,要么耗时,要么既昂贵又耗时。

 

这两篇论文中,第一篇论文是由谷歌的五名研究人员撰写的,题目是《谁的基准真相?数据集标注背后的个体和集体的身份说明》(Whose Ground Truth? Accounting for Individual and Collective Identities Underlying Dataset Annotation);第二篇论文是由纽约雪城大学(Syracuse University)的两位研究人员撰写的,题目是《数据标注者之间分歧的起源和价值:仇恨言论标注中个体差异的案例研究》(The Origin and Value of Disagreement Among Data Labelers: A Case Study of Individual Differences in Hate Speech Annotation)。

 

谷歌的论文指出,众包工人自身的偏见可能会被植入到人工智能系统中,而人工智能系统的基准真相就是基于这些人的反应。这些众包工人经常在一系列限制条件下工作,这可能会影响他们对实验任务的反应方式。

 

例如,亚马逊 Mechanical Turk 的现行政策就允许请求者(那些分发任务的人)拒绝标注者的工作而无须承担责任:

 

绝大多数的众包工人(94%)都有过被拒绝的工作经历,或者没有得到报酬。但是,不管他们是接受还是拒绝,请求者都对他们收到的数据保留了全部权利。Roberts(2016) 将这种制度描述为“鼓励盗窃工资”。

 

拒绝工作和拖欠报酬是痛苦的,因为拒绝往往是由于不清晰的指示和缺乏有效的反馈渠道而导致的。许多众包工人报告说,沟通不畅会给他们的工作带来负面影响。

 

论文指出,利用外包服务来开发数据集的研究人员,应当思考众包平台是怎样对待其工人的。据悉,美国的众包工人被归为“独立承包商”,他们的工作既不受监管,也不受《公平劳动标准法案》(Fair Labor Standards Act)所规定的最低工资的保护。

标注者背景很重要

 

这篇论文还提出了一个批评,即在没有考虑到标注者背景的情况下,雇用临时的、来自全球的劳动力来进行标注。

 

如果预算允许,使用 AMT 和类似的众包平台的研究人员经常把同一个任务分配给四个标注者,并且在结果上遵循“多数原则”。

 

论文认为,标注者的背景显然未被重视。比如,当三名 18~57 岁的男性和一名 29 岁的女性被随机地分配了一项关于性别歧视的任务,那么男性的判决将获得胜利,除非研究人员注意到这些标注者的背景信息,这种情况相对罕见。

 

类似地,一个有关芝加哥帮派行为的问题,分配给一名 36 岁的美国农妇、一名 42 岁的芝加哥男性居民以及两名分别来自班加罗尔和丹麦的标注者,在标准的外包配置中,最容易受到这个问题影响的人(芝加哥男性)在结果中只占有四分之一的份额。

 

研究人员表示:

 

“唯一真相”这一概念在众包回应中是个神话。标注者之间的分歧往往被认为是消极的,但事实上却能为人们提供有价值的信息。其次,由于许多众包标注者在社会人口统计学方面存在一定的偏差,这就会影响到哪些人是数据集的代表,哪些人将面对众包的挑战。

 

解释标注者人口统计学上的偏差是数据收集和确保负责任的下游应用的关键。总之,认同和顾及众包工人的社会和文化背景,不管从数据质量或社会影响上来说,都是很有意义的。

不存在对热点问题的“中立”观点

 

即使四名标注者的观点在人口统计学上或其他一些指标上都不存在偏差,但谷歌的这篇论文仍然担心研究人员没有将标注者的人生阅历或哲学取向纳入考量:

 

虽然有些任务倾向于提出有正确答案的客观问题(例如 “is there a human face in an image?”),但很多时候,数据集的目的是捕捉对相对主观的任务的判断,而非一个普遍正确的答案(例如 “is this piece of text offensive?”)。关键在于,它是否取决于标注者的主观判断。

 

针对仇恨言论标签问题的具体范围,雪城大学的论文提出了更为直截了当的问题,比如“Is there a cat in this photograph?”,与询问众包工人某个短语是否“有毒”有显著不同:

 

由于社会现实的纷繁复杂,人们对于“有毒”的理解也各不相同。他们以自己的认识为基础,对有害的内容进行标注。

 

雪城大学的研究人员发现,个性和年龄对仇恨言论的维度标签有 “实质性影响”,他们得出结论:这些发现表明,在具有不同背景和个性的仇恨言论的标注者之间,要想获得标注一致性,这种努力可能永远不会取得完全成功

法官可能也会有偏见

 

雪城大学的论文指出,这种缺乏客观性的情况也有可能向上迭代。该论文认为,人为干预(或自动决策,也是由人决定)来决定共识投票的“赢家”,也应该受到审查。

 

作者将这一过程比作论坛审核,并指出:

 

社区版主可以通过对帖子进行加精或隐藏,以及对用户进行表彰、羞辱或禁止,来决定帖子和用户在社区中的命运。版主的决定会对向社区成员和受众传达的内容产生影响,并将会对社区的讨论体验产生影响。

 

假设一个人类版主是一个社区成员,与其他社区成员具有人口统计学上的同质性,那么他们用来评估内容的心理图式似乎有可能与其他社区成员的心理图式相匹配。

 

这为雪城大学的研究人员为何对仇恨言论标注的未来,得出如此令人沮丧的结论提供了一些线索。其含义是,针对不同的众包意见的政策和判决呼吁,不能只按照“可接受的”原则随意应用,而这些原则在任何地方都无法被遵循(或者不能简化为可适用的模式,即使它们确实存在)。

 

做决定的人(众包工人)是有偏见的,如果他们没有偏见,对于这样的任务来说就毫无意义,因为任务就是要做出价值判断;而那些对众包结果中的争议做出判决的人,在指定有争议的政策时,也是在做出价值判断。

 

仅仅一个仇恨言论检测框架就可能有数百种政策,如果不把所有的政策都纳入最高法院,那么“权威性”的共识是从哪里来的呢?

 

谷歌的研究人员建议,“标注者之间的分歧可能蕴含着关于任务的宝贵细微差别”。该论文建议在数据集中使用元数据,以反映和说明争议。

 

但是,我们很难看到,这个特定背景下的数据层是怎样产生类似的度量标准,符合已建立的标准测试需求,或者支持任何明显的结论,除非是在这种不现实的情况:在后续工作中使用同一组研究人员。

管理标注者库

 

所有这一切都是假设,一个研究项目甚至会有用于多个标注的预算,这些标注将导致共识投票。在许多情况下,研究人员试图通过指定众包工人应具备的特征,如地理位置、性别或者其他文化因素,以多元化换取特殊性,从而更廉价地“管理”外包标注者库。

 

谷歌的论文认为,应对这些挑战的方法可以是与标注者建立一个更大的沟通框架。

 

对标注者的如此仔细的考虑,自然会成为超大规模标注外包的障碍。最终导致要么出现更有限和低容量的数据集,要么标注者进行“仓促”评估,获得关于他们的有限细节,并且在信息不足的情况下,将他们定性为“适合任务”。这是在标注者诚实的前提下。

 

鉴于现有的劳动力报酬过低,对现有任务的竞争很激烈,并且职业前景渺茫,因此,标注员的动机就是要迅速提供“正确”的答案,并进行下一项小型任务。

 

雪城大学的论文认为,如果“正确答案”是比“有猫/无猫”更复杂的东西,众包工人也许会从问题的内容和上下文推导出“可接受的”答案。

 

替代性概念的扩散以及简单化的标注方法的广泛使用,都可以说是对网络仇恨言论研究进展的阻碍。例如,Ross 等人就发现,将 Twitter 中关于仇恨行为的定义告诉标注者,会使他们在一定程度上将自己的观点与定义相一致。这样的调整会使标注员之间标注的可信度非常低。

 

作者介绍:

 

Martin Anderson,记者、编辑,主要研究机器学习、人工智能和大数据。

 

原文链接:

 

https://www.unite.ai/the-invisible-often-unhappy-workforce-thats-deciding-the-future-of-ai/

2022-02-23 18:003080

评论 1 条评论

发布
用户头像
这论文本身对于"工资低廉、经常被剥夺权利的、来自全球的随机零工"就是一种偏见,如何处理偏见正是人工智能要达到的目的之一,也是人工智能是否真的智能的评判标准之一.
2022-02-28 10:54
回复
没有更多了
发现更多内容

使用无参数函数进行命令执行

网络安全学海

黑客 网络安全 信息安全 渗透测试 安全漏洞

如何处理消息丢失问题?

JavaEdge

1月月更

(1-14/14) 首位销售人员

mtfelix

300天创作 2022Y300P

APICloud 原生模块、H5模块、多端组件使用教程

YonBuilder低代码开发平台

前端开发 APP开发 APICloud 模块 跨端开发

ThinkPHP6和GatewayWorker简单的示例

CRMEB

【高并发】导致并发编程频繁出问题的“幕后黑手”

冰河

并发编程 多线程 高并发 协程 异步编程

Python 为什么不设计 do-while 循环结构?

Python猫

Python

低代码实现探索(二十二)如何构建一个可以看的懂的系统

零道云-混合式低代码平台

使用Rainbond打包业务模块,实现业务积木式拼装

北京好雨科技有限公司

深入浅出Apache Pulsar(1):Pulsar vs Kafka

云智慧AIOps社区

kafka 云原生 消息队列 kafka运维 Apache Pulsar 消息系统

架构实战营第 4 期 -- 模块七作业

烈火干柴烛灭田边残月

架构实战营

前额皮质如何影响我们的工作效率?

LigaAI

工作效率 脑科学

Scrum Master如何参与每日Scrum(Daily Scrum)

Bruce Talk

Scrum 敏捷 Agile Coach/Facilitate

混沌工程之 Linux 网络故障模拟工具TC

zuozewei

Linux 混沌工程 1月月更

网络安全kali渗透学习 web渗透入门 Kali系统的国内源配置

学神来啦

为什么HashMap会产生死循环?

王磊

政法委跨单位重点人员联防联控平台建设,治安防控系统开发

a13823115807

如何基于知识图谱实体解析技术进行数据优化?

索信达控股

人工智能 AI 知识图谱 数据优化 索信达控股

Kafka 为什么这么快?多的是你不知道的事

码哥字节

kafka 消息队列 1月日更 1月月更

项目管理是做什么

爱吃小舅的鱼

Hoo虎符研究院|区块链简报 20220117期

区块链前沿News

Hoo虎符 Hoo 虎符研究院 区块链资讯

十大视频场景化应用工具+五大视频领域冠军/顶会算法重磅开源!

百度大脑

redis未授权访问漏洞复现

喀拉峻

redis 黑客 网络安全 安全 信息安全

架构实战训练营-模块7-作业

温安适

「架构实战营」

CPython 性能将提升 5 倍?faster-python 项目 PEP 659 源码级解读

阿里巴巴终端技术

Python 源码 源码分析 CPython

表单数据高级搜索功能设计

全象云低代码

搜索引擎 前端 低代码 搜索 表单

3DCAT荣获2021金陀螺“年度XR行业技术创新奖”“年度优秀VR行业应用奖”两项大奖

3DCAT实时渲染

云计算 教育 VR/AR 渲染 渲染器

人效将是快消品企业未来发展的最大瓶颈

百度大脑

人工智能

Go 语言快速入门指南:Go 并发初识

宇宙之一粟

golang 并发 Go 语言 1月月更

聚类算法有哪些?又是如何分类?

郑州埃文科技

数据分析 聚类算法

Android 64位架构适配

百瓶技术

andiod 客户端

不快乐的劳动力,决定了AI的未来_AI&大模型_Martin Anderson_InfoQ精选文章