【ArchSummit】如何通过AIOps推动可量化的业务价值增长和效率提升?>>> 了解详情
写点什么

不快乐的劳动力,决定了 AI 的未来

  • 2022-02-23
  • 本文字数:3148 字

    阅读完需:约 10 分钟

不快乐的劳动力,决定了AI的未来

本文最初发表于 unite.ai,经原作者 Martin Anderson 授权,InfoQ 中文站翻译并分享。

 

两份最新的论文指出:当前的趋势是,那些工资低廉、经常被剥夺权利的、来自全球的随机零工,为机器学习系统创造基准真相(Ground Truth)。这可能对人工智能产生重大的下游影响。这无疑是个糟糕的消息。而更糟糕的是,补救措施要么昂贵,要么耗时,要么既昂贵又耗时。

 

这两篇论文中,第一篇论文是由谷歌的五名研究人员撰写的,题目是《谁的基准真相?数据集标注背后的个体和集体的身份说明》(Whose Ground Truth? Accounting for Individual and Collective Identities Underlying Dataset Annotation);第二篇论文是由纽约雪城大学(Syracuse University)的两位研究人员撰写的,题目是《数据标注者之间分歧的起源和价值:仇恨言论标注中个体差异的案例研究》(The Origin and Value of Disagreement Among Data Labelers: A Case Study of Individual Differences in Hate Speech Annotation)。

 

谷歌的论文指出,众包工人自身的偏见可能会被植入到人工智能系统中,而人工智能系统的基准真相就是基于这些人的反应。这些众包工人经常在一系列限制条件下工作,这可能会影响他们对实验任务的反应方式。

 

例如,亚马逊 Mechanical Turk 的现行政策就允许请求者(那些分发任务的人)拒绝标注者的工作而无须承担责任:

 

绝大多数的众包工人(94%)都有过被拒绝的工作经历,或者没有得到报酬。但是,不管他们是接受还是拒绝,请求者都对他们收到的数据保留了全部权利。Roberts(2016) 将这种制度描述为“鼓励盗窃工资”。

 

拒绝工作和拖欠报酬是痛苦的,因为拒绝往往是由于不清晰的指示和缺乏有效的反馈渠道而导致的。许多众包工人报告说,沟通不畅会给他们的工作带来负面影响。

 

论文指出,利用外包服务来开发数据集的研究人员,应当思考众包平台是怎样对待其工人的。据悉,美国的众包工人被归为“独立承包商”,他们的工作既不受监管,也不受《公平劳动标准法案》(Fair Labor Standards Act)所规定的最低工资的保护。

标注者背景很重要

 

这篇论文还提出了一个批评,即在没有考虑到标注者背景的情况下,雇用临时的、来自全球的劳动力来进行标注。

 

如果预算允许,使用 AMT 和类似的众包平台的研究人员经常把同一个任务分配给四个标注者,并且在结果上遵循“多数原则”。

 

论文认为,标注者的背景显然未被重视。比如,当三名 18~57 岁的男性和一名 29 岁的女性被随机地分配了一项关于性别歧视的任务,那么男性的判决将获得胜利,除非研究人员注意到这些标注者的背景信息,这种情况相对罕见。

 

类似地,一个有关芝加哥帮派行为的问题,分配给一名 36 岁的美国农妇、一名 42 岁的芝加哥男性居民以及两名分别来自班加罗尔和丹麦的标注者,在标准的外包配置中,最容易受到这个问题影响的人(芝加哥男性)在结果中只占有四分之一的份额。

 

研究人员表示:

 

“唯一真相”这一概念在众包回应中是个神话。标注者之间的分歧往往被认为是消极的,但事实上却能为人们提供有价值的信息。其次,由于许多众包标注者在社会人口统计学方面存在一定的偏差,这就会影响到哪些人是数据集的代表,哪些人将面对众包的挑战。

 

解释标注者人口统计学上的偏差是数据收集和确保负责任的下游应用的关键。总之,认同和顾及众包工人的社会和文化背景,不管从数据质量或社会影响上来说,都是很有意义的。

不存在对热点问题的“中立”观点

 

即使四名标注者的观点在人口统计学上或其他一些指标上都不存在偏差,但谷歌的这篇论文仍然担心研究人员没有将标注者的人生阅历或哲学取向纳入考量:

 

虽然有些任务倾向于提出有正确答案的客观问题(例如 “is there a human face in an image?”),但很多时候,数据集的目的是捕捉对相对主观的任务的判断,而非一个普遍正确的答案(例如 “is this piece of text offensive?”)。关键在于,它是否取决于标注者的主观判断。

 

针对仇恨言论标签问题的具体范围,雪城大学的论文提出了更为直截了当的问题,比如“Is there a cat in this photograph?”,与询问众包工人某个短语是否“有毒”有显著不同:

 

由于社会现实的纷繁复杂,人们对于“有毒”的理解也各不相同。他们以自己的认识为基础,对有害的内容进行标注。

 

雪城大学的研究人员发现,个性和年龄对仇恨言论的维度标签有 “实质性影响”,他们得出结论:这些发现表明,在具有不同背景和个性的仇恨言论的标注者之间,要想获得标注一致性,这种努力可能永远不会取得完全成功

法官可能也会有偏见

 

雪城大学的论文指出,这种缺乏客观性的情况也有可能向上迭代。该论文认为,人为干预(或自动决策,也是由人决定)来决定共识投票的“赢家”,也应该受到审查。

 

作者将这一过程比作论坛审核,并指出:

 

社区版主可以通过对帖子进行加精或隐藏,以及对用户进行表彰、羞辱或禁止,来决定帖子和用户在社区中的命运。版主的决定会对向社区成员和受众传达的内容产生影响,并将会对社区的讨论体验产生影响。

 

假设一个人类版主是一个社区成员,与其他社区成员具有人口统计学上的同质性,那么他们用来评估内容的心理图式似乎有可能与其他社区成员的心理图式相匹配。

 

这为雪城大学的研究人员为何对仇恨言论标注的未来,得出如此令人沮丧的结论提供了一些线索。其含义是,针对不同的众包意见的政策和判决呼吁,不能只按照“可接受的”原则随意应用,而这些原则在任何地方都无法被遵循(或者不能简化为可适用的模式,即使它们确实存在)。

 

做决定的人(众包工人)是有偏见的,如果他们没有偏见,对于这样的任务来说就毫无意义,因为任务就是要做出价值判断;而那些对众包结果中的争议做出判决的人,在指定有争议的政策时,也是在做出价值判断。

 

仅仅一个仇恨言论检测框架就可能有数百种政策,如果不把所有的政策都纳入最高法院,那么“权威性”的共识是从哪里来的呢?

 

谷歌的研究人员建议,“标注者之间的分歧可能蕴含着关于任务的宝贵细微差别”。该论文建议在数据集中使用元数据,以反映和说明争议。

 

但是,我们很难看到,这个特定背景下的数据层是怎样产生类似的度量标准,符合已建立的标准测试需求,或者支持任何明显的结论,除非是在这种不现实的情况:在后续工作中使用同一组研究人员。

管理标注者库

 

所有这一切都是假设,一个研究项目甚至会有用于多个标注的预算,这些标注将导致共识投票。在许多情况下,研究人员试图通过指定众包工人应具备的特征,如地理位置、性别或者其他文化因素,以多元化换取特殊性,从而更廉价地“管理”外包标注者库。

 

谷歌的论文认为,应对这些挑战的方法可以是与标注者建立一个更大的沟通框架。

 

对标注者的如此仔细的考虑,自然会成为超大规模标注外包的障碍。最终导致要么出现更有限和低容量的数据集,要么标注者进行“仓促”评估,获得关于他们的有限细节,并且在信息不足的情况下,将他们定性为“适合任务”。这是在标注者诚实的前提下。

 

鉴于现有的劳动力报酬过低,对现有任务的竞争很激烈,并且职业前景渺茫,因此,标注员的动机就是要迅速提供“正确”的答案,并进行下一项小型任务。

 

雪城大学的论文认为,如果“正确答案”是比“有猫/无猫”更复杂的东西,众包工人也许会从问题的内容和上下文推导出“可接受的”答案。

 

替代性概念的扩散以及简单化的标注方法的广泛使用,都可以说是对网络仇恨言论研究进展的阻碍。例如,Ross 等人就发现,将 Twitter 中关于仇恨行为的定义告诉标注者,会使他们在一定程度上将自己的观点与定义相一致。这样的调整会使标注员之间标注的可信度非常低。

 

作者介绍:

 

Martin Anderson,记者、编辑,主要研究机器学习、人工智能和大数据。

 

原文链接:

 

https://www.unite.ai/the-invisible-often-unhappy-workforce-thats-deciding-the-future-of-ai/

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2022-02-23 18:002776

评论 1 条评论

发布
用户头像
这论文本身对于"工资低廉、经常被剥夺权利的、来自全球的随机零工"就是一种偏见,如何处理偏见正是人工智能要达到的目的之一,也是人工智能是否真的智能的评判标准之一.
2022-02-28 10:54
回复
没有更多了
发现更多内容

云图说|初识云数据库GaussDB(for Cassandra)

华为云开发者联盟

开源 Cassandra 云数据库 GaussDB(for Cassandra) 宽列数据库

Go语言实现的23种设计模式之结构型模式

华为云开发者联盟

设计模式 组合模式 Go 语言 结构型模式 适配器模式

一篇文章告诉你 GIS 存储如何选?

焱融科技

技术 容器 分布式 云原生 高性能

曝光一个网站,我周末就耗在上面了。

why技术

Java Arthas

并发王者课-铂金3:一劳永逸-如何理解锁的多次可重入问题

MetaThoughts

Java 多线程 并发

云算力挖矿系统APP模式开发方案

【Flutter 专题】128 图解 ColorTween 颜色补间动画 & ButtonBar 按钮容器

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 6月日更

从工单到需求管理,企业如何快速响应客户反馈?

万事ONES

项目管理 需求管理 需求 ONES

智能边缘时代 英特尔携手极视角赋能开发者 助推AIoT发展

E科讯

8种图数据库对 NULL 属性值支持情况

华为云开发者联盟

图数据库 null 逻辑 语义网 图模型

Python——双向队列 (deque)

在即

6月日更

HarmonyOS学习路之开发篇——Data Ability

爱吃土豆丝的打工人

HarmonyOS Ability 鸿蒙 Ability Data Ability

JAVA面向对象(八)--封装

加百利

Java 后端 6月日更

掌握鸿蒙轻内核静态内存的使用,从源码分析开始

华为云开发者联盟

鸿蒙 操作系统 内存 静态内存 鸿蒙轻内核

推荐 3 款超好用的 Docker 图形化管理工具

学神来啦

Docker Linux 程序员 分布式 运维

浪潮云说 | 开源新势力—云溪数据库ZNBase

浪潮云

云计算

34岁Android开发大叔感慨,已拿offer附真题解析

欢喜学安卓

android 程序员 面试 移动开发

百度一款前端图片合成工具库MI开源啦!

百度开发者中心

百度 开源 图片

不动如山,表备份硬核技术:物理细粒度备份恢复

华为云开发者联盟

集群 数仓 Roach 物理细粒度 备份恢复

34岁安卓开发大叔感慨,帮你突破瓶颈

欢喜学安卓

android 程序员 面试 移动开发

react源码解析16.concurrent模式

全栈潇晨

react.js

做项目管理,如何对复杂的项目工作进行分解

万事ONES

需求管理 ONES 项目管理工具

密码学系列之:blowfish对称密钥分组算法

程序那些事

加密解密 密码学 程序那些事 密码学和算法

EasyRecovery,拯救那些遗失的文件

淋雨

文件恢复 Easyrecovery破解 数据恢复软件 免费数据恢复

MySQL 页完全指南——浅入深出页的原理

leonsh

MySQL 数据库 innodb

chia奇亚算力挖矿分发APP系统开发

薇電13242772558

区块链

项目管理100问 | 为什么你的项目进度总是在延期?

万事ONES

项目管理 项目排期 ONES 项目开发

共享存储设备,如何实现差异化IO分配策略

怀瑾握瑜

云计算 负载均衡 存储 数据中心 SSD

618大促又来了?3天2次大事故,不堪回首的加班经历……

TakinTalks稳定性社区

压力测试 全链路压测 大促 系统高可用 生产环境全链路压测

详解Apache Dubbo的SPI实现机制

vivo互联网技术

dubbo 服务器 spi

并发王者课-铂金4:令行禁止-为何说信号量是线程间的同步利器

MetaThoughts

Java 多线程 并发

不快乐的劳动力,决定了AI的未来_AI&大模型_Martin Anderson_InfoQ精选文章