最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

OpenAI 千亿市值背后:外包数据标注员月薪不到两千,每天标注 20 万个单词

  • 2023-03-03
    北京
  • 本文字数:1906 字

    阅读完需:约 6 分钟

OpenAI千亿市值背后:外包数据标注员月薪不到两千,每天标注20万个单词

ChatGPT 被视为近几年最具创新性的 AI 工具之一。这款强大的 AI 聊天机器人几乎可以生成任何问题的文本,从莎士比亚的十四行诗,到用 5 岁孩子能理解的语言描述复杂的数学问题,可谓“无所不能”。

 

近日,TIME 发布了一篇独家报道,发现ChatGPT在构建内容过滤器时所使用的标注数据由肯尼亚工人完成,且每小时收入不足 2 美元。

 

根据作者 Billy Perrigo 的说法,数据标注员的任务是阅读和标注文本内容,从“互联网上最阴暗的角落”中提取“最血淋淋的细节表达,包括儿童性虐待、兽行、杀人、自杀、酷刑、折磨、自残和乱伦等内容。”

外包数据标注工人时薪不到 2 美元

 

Perrigo 提到,根据资历和绩效,这些工人的最低税后时薪仅为 1.32 美元,最高税后时薪也不过 1.44 美元。英国广播公司 BBC 的一份报告估计,肯尼亚约有 75%的工人住在非洲最大的贫民窟之一,内罗毕的基贝拉贫民窟。当地的失业率高达 50%,缺乏清洁水,也没有卫生设施可用。

 

承担这份外包工作的是 Sama(原 Samasource),一家位于旧金山的公司。该公司向来以建设“道德 AI”自居,号称要在数字工作与低收入人群之间搭设纽带。该公司在肯尼亚、乌干达和印度等地雇用人员,为谷歌、Meta 和微软等科技大厂提供数据标注服务。

 

作为OpenAI旗下最当红的聊天机器人,ChatGPT 采用的是升级版本的大语言模型GPT-3.5。该聊天机器人于去年 11 月下旬首度亮相,推出不到一周就吸引到了超百万用户。ChatGPT 的用例包括数字内容生成、写作和代码调试。与其他同样基于 GPT-3.5 模型的前任服务一样,由于大量使用从互联网处采集到的训练数据,ChatGPT极易输出有害内容。为了解决这个难题,OpenAI 必须为其开发内容过滤器。

 

2019 年,Sama 公司在肯尼亚雇佣大量工人,并声称帮助他们摆脱了贫困。

 

OpenAI证实,Sama 公司雇用的肯尼亚员工确实在帮助 ChatGPT 过滤各种有害内容。该公司发言人表示,“我们的使命是确保人工通用智能有益于全人类的福祉,也一直在努力打造安全有用的 AI 系统、控制其中的偏见与有害内容。只有对有害(文本和图像)进行分类和过滤,才能最大程度减少训练数据中所包含的暴力和性内容,同时创建出能够检测有害内容的工具。”

“做这份工作是一种精神创伤”

 

TIME 还采访了四围名 Sama 公司员工,他们表示自己的工作体验可以用“精神创伤”来形容。有三名工人表示,他们每天需要阅读 150 到 250 条材料片段,这些段落的范围从 100 个单词到 1000 多个单词不等,算起来,平均每小时他们最多要阅读和标注超过 2 万个单词;但 Sama 对此表示质疑,称员工每天只需要审查 70 条片段即可。

 

TIME 在报道中提到,Sama 组织的三支数据标注团队中,每个小组都专注于一个主题。大多数成员的月工资为 170 美元,奖金最高不超过 70 美元。如果准确性特别高或者标注速度特别快,还能赚到额外的佣金

 

报道称,以一天工作九个小时计算,那么税后时薪最低为 1.32 美元;如果能够达成所有考核要求,则时薪会略微上涨至税后 1.44 美元。Perrigo 还强调,肯尼亚不存在充分就业市场,所以很难对收入做出公平比较。不过在这批员工入职时,内罗毕接待员岗位的最低工资为每小时 1.52 美元。

 

Perrigo 发布推文称,“这样的工作条件也揭露出 AI 繁荣之下的阴暗面:AI 的发展,依靠的就是这群默默无闻的低薪工人。尽管他们为价值数十亿美元的新兴产业做出贡献,但仍然被严重边缘化。”随着微软与 OpenAI 的合作加深,OpenAI 的市场估值早已超过 300 亿美元(约 2072 亿元人民币)。

 

媒体 Quartz 也曾报道过此事,Sama 方面主动联系并对薪酬做了澄清,称其在东非地区设定的工资是其他内容审核公司的几乎两倍。“Sama 设定的月薪在 210 美元到 323 美元之间,达到肯尼亚最低工资的两倍以上,也远远超过了最低生活需求。相比之下,美国同类岗位的工资在每小时 30 至 45 美元之间。”

 

另外,Sama 还表示会为当地员工提供其他个人福利,包括咨询、冥想、祈祷、护理、游戏和本地艺术表演,“以及有益身心健康的全面餐饮服务”。但 TIME 在采访中得知,工人们为了完成每天的绩效考核,往往没时间去接受这些咨询指导。两位受访者表示,Sama 公司的管理层拒绝与他们一对一交流,转而用小组会议的形式代替。

 

2022 年 2 月,Sama 公司结束了与 OpenAI 间的服务合同,比预定计划提前的 8 个月。根据 TIME 的报道,双方的另一个数据标注项目已经启动,这次是处理包含非法内容的图像。OpenAI 发表了一份声明,称图像集中包含非法内容是因为沟通失误。

 

今年 1 月 10 日,Sama 公司宣布取消一切涉及敏感内容的剩余工作,包括与Facebook签订的价值 390 万美元的内容审核合同。接下来,Sama 将专注于为计算机视觉数据提供标注服务。

 

原文链接:

 

https://www.datanami.com/2023/01/20/openai-outsourced-data-labeling-to-kenyan-workers-earning-less-than-2-per-hour-time-report/

 

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-03-03 16:173483
用户头像
李冬梅 加V:busulishang4668

发布了 810 篇内容, 共 378.5 次阅读, 收获喜欢 999 次。

关注

评论 1 条评论

发布
用户头像
苹果市值一万亿美元,你在富士康打螺丝,组装了几台iPhone,是不是得给你分一个亿。
2023-03-06 15:29 · 陕西
回复
没有更多了
发现更多内容

phpExcel:Excel数据导入导出最佳实战

devpoint

php Excel thinkphp 7月日更

Redisson 分布式锁源码 08:MultiLock 加锁与锁释放

程序员小航

Java 源码 分布式锁 redisson redison

解读区块链在制药和物流管理中具备的优势

CECBC

🏆「作者推荐」【JVM性能分析】精心准备了一套JVM分析工具的锦囊(上部)

洛神灬殇

JVM 性能分析 jvm调优 7月日更

免费分享Java Web 开发的优秀图书

Java入门到架构

Java Java书籍推荐

🏆「作者推荐」【JVM 性能分析】精心准备了一套 JVM 分析工具的锦囊(中部)

洛神灬殇

JVM 性能分析 7月日更

你有多少密码是123456

MySQL从删库到跑路

密码管理

利用 Vector 从日志创建指标来提高系统的可观测性

哈德韦

日志 可观测性 Prometheus SRE vector

external-attacher源码分析(2)-核心处理逻辑分析

良凯尔

Kubernetes 源码分析 Ceph CSI Kubernetes Plugin

幸福来敲门

卢卡多多

幸福 7月日更

Apollo配置中心如何实现配置热发布

慕枫技术笔记

微服务 后端 配置中心

区块链技术在“三资”监管领域的应用

CECBC

PowerShell 哈希表

耳东@Erdong

PowerShell 7月日更

【Flutter 专题】91图解 Dart 单线程实现异步处理之 Future (二)

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 7月日更

话题讨论| 帮朋友拼多多助力会导致银行卡被盗刷?

石云升

拼多多 话题讨论 7月日更

架构实战营 - 模块 8- 作业

泄矢的呼啦圈

架构实战营

吃药吗?AI造的!

脑极体

使用 Open Policy Agent 实现可信镜像仓库检查

张晓辉

Kubernetes 安全 OPA

jTDS 驱动导致 cpu 100%

顾五木

cpu占用100% 线上程序问题

【得物技术】常用注册中心原理及比较

得物技术

zookeeper nacos Consul Eureka 注册中心

设计消息队列存储消息数据的MySQL表格

Vincent

架构训练营

都说数仓是面向主题建设的,那数仓的主题和主题域又应该怎么划分呢?

白程序员的自习室

数仓 7月日更 数仓主题 主题域 数仓建设

Linux之find xargs

入门小站

Linux

在线ASCII艺术字生成工具,SpringBoot banner生成工具

入门小站

工具

学习总结 IoT方向的小项目

万里无云万里天

学习 IoT

为什么搞一个副业项目如此之难?

张理查

查找——HASH

若尘

数据结构 hash

数字政府建设如火如荼 区块链保证数据真实安全

CECBC

数据仓库的基本要求

奔向架构师

数据仓库 数据架构 7月日更

模块一作业

君子意如何

「架构师训练营第 1 期」

Spring源码解析 -- SpringWeb请求映射Map初始化

Java spring 源码解析

OpenAI千亿市值背后:外包数据标注员月薪不到两千,每天标注20万个单词_AI&大模型_Jaime Hampton_InfoQ精选文章