10 月 23 - 25 日,QCon 上海站即将召开,9折优惠最后1天 了解详情
写点什么

OpenAI 千亿市值背后:外包数据标注员月薪不到两千,每天标注 20 万个单词

  • 2023-03-03
    北京
  • 本文字数:1906 字

    阅读完需:约 6 分钟

OpenAI千亿市值背后:外包数据标注员月薪不到两千,每天标注20万个单词

ChatGPT 被视为近几年最具创新性的 AI 工具之一。这款强大的 AI 聊天机器人几乎可以生成任何问题的文本,从莎士比亚的十四行诗,到用 5 岁孩子能理解的语言描述复杂的数学问题,可谓“无所不能”。

 

近日,TIME 发布了一篇独家报道,发现ChatGPT在构建内容过滤器时所使用的标注数据由肯尼亚工人完成,且每小时收入不足 2 美元。

 

根据作者 Billy Perrigo 的说法,数据标注员的任务是阅读和标注文本内容,从“互联网上最阴暗的角落”中提取“最血淋淋的细节表达,包括儿童性虐待、兽行、杀人、自杀、酷刑、折磨、自残和乱伦等内容。”

外包数据标注工人时薪不到 2 美元

 

Perrigo 提到,根据资历和绩效,这些工人的最低税后时薪仅为 1.32 美元,最高税后时薪也不过 1.44 美元。英国广播公司 BBC 的一份报告估计,肯尼亚约有 75%的工人住在非洲最大的贫民窟之一,内罗毕的基贝拉贫民窟。当地的失业率高达 50%,缺乏清洁水,也没有卫生设施可用。

 

承担这份外包工作的是 Sama(原 Samasource),一家位于旧金山的公司。该公司向来以建设“道德 AI”自居,号称要在数字工作与低收入人群之间搭设纽带。该公司在肯尼亚、乌干达和印度等地雇用人员,为谷歌、Meta 和微软等科技大厂提供数据标注服务。

 

作为OpenAI旗下最当红的聊天机器人,ChatGPT 采用的是升级版本的大语言模型GPT-3.5。该聊天机器人于去年 11 月下旬首度亮相,推出不到一周就吸引到了超百万用户。ChatGPT 的用例包括数字内容生成、写作和代码调试。与其他同样基于 GPT-3.5 模型的前任服务一样,由于大量使用从互联网处采集到的训练数据,ChatGPT极易输出有害内容。为了解决这个难题,OpenAI 必须为其开发内容过滤器。

 

2019 年,Sama 公司在肯尼亚雇佣大量工人,并声称帮助他们摆脱了贫困。

 

OpenAI证实,Sama 公司雇用的肯尼亚员工确实在帮助 ChatGPT 过滤各种有害内容。该公司发言人表示,“我们的使命是确保人工通用智能有益于全人类的福祉,也一直在努力打造安全有用的 AI 系统、控制其中的偏见与有害内容。只有对有害(文本和图像)进行分类和过滤,才能最大程度减少训练数据中所包含的暴力和性内容,同时创建出能够检测有害内容的工具。”

“做这份工作是一种精神创伤”

 

TIME 还采访了四围名 Sama 公司员工,他们表示自己的工作体验可以用“精神创伤”来形容。有三名工人表示,他们每天需要阅读 150 到 250 条材料片段,这些段落的范围从 100 个单词到 1000 多个单词不等,算起来,平均每小时他们最多要阅读和标注超过 2 万个单词;但 Sama 对此表示质疑,称员工每天只需要审查 70 条片段即可。

 

TIME 在报道中提到,Sama 组织的三支数据标注团队中,每个小组都专注于一个主题。大多数成员的月工资为 170 美元,奖金最高不超过 70 美元。如果准确性特别高或者标注速度特别快,还能赚到额外的佣金

 

报道称,以一天工作九个小时计算,那么税后时薪最低为 1.32 美元;如果能够达成所有考核要求,则时薪会略微上涨至税后 1.44 美元。Perrigo 还强调,肯尼亚不存在充分就业市场,所以很难对收入做出公平比较。不过在这批员工入职时,内罗毕接待员岗位的最低工资为每小时 1.52 美元。

 

Perrigo 发布推文称,“这样的工作条件也揭露出 AI 繁荣之下的阴暗面:AI 的发展,依靠的就是这群默默无闻的低薪工人。尽管他们为价值数十亿美元的新兴产业做出贡献,但仍然被严重边缘化。”随着微软与 OpenAI 的合作加深,OpenAI 的市场估值早已超过 300 亿美元(约 2072 亿元人民币)。

 

媒体 Quartz 也曾报道过此事,Sama 方面主动联系并对薪酬做了澄清,称其在东非地区设定的工资是其他内容审核公司的几乎两倍。“Sama 设定的月薪在 210 美元到 323 美元之间,达到肯尼亚最低工资的两倍以上,也远远超过了最低生活需求。相比之下,美国同类岗位的工资在每小时 30 至 45 美元之间。”

 

另外,Sama 还表示会为当地员工提供其他个人福利,包括咨询、冥想、祈祷、护理、游戏和本地艺术表演,“以及有益身心健康的全面餐饮服务”。但 TIME 在采访中得知,工人们为了完成每天的绩效考核,往往没时间去接受这些咨询指导。两位受访者表示,Sama 公司的管理层拒绝与他们一对一交流,转而用小组会议的形式代替。

 

2022 年 2 月,Sama 公司结束了与 OpenAI 间的服务合同,比预定计划提前的 8 个月。根据 TIME 的报道,双方的另一个数据标注项目已经启动,这次是处理包含非法内容的图像。OpenAI 发表了一份声明,称图像集中包含非法内容是因为沟通失误。

 

今年 1 月 10 日,Sama 公司宣布取消一切涉及敏感内容的剩余工作,包括与Facebook签订的价值 390 万美元的内容审核合同。接下来,Sama 将专注于为计算机视觉数据提供标注服务。

 

原文链接:

 

https://www.datanami.com/2023/01/20/openai-outsourced-data-labeling-to-kenyan-workers-earning-less-than-2-per-hour-time-report/

 

2023-03-03 16:175063
用户头像
李冬梅 加V:busulishang4668

发布了 1168 篇内容, 共 783.3 次阅读, 收获喜欢 1291 次。

关注

评论 1 条评论

发布
用户头像
苹果市值一万亿美元,你在富士康打螺丝,组装了几台iPhone,是不是得给你分一个亿。
2023-03-06 15:29 · 陕西
回复
没有更多了
发现更多内容

从低代码到AI赋能,企业科技创新的下一个风口

天津汇柏科技有限公司

低代码 AI 人工智能

利用观测云实现云资源FinOps优化

观测云

云服务 FinOps

火山引擎携手地瓜机器人,加速大模型在机器人场景规模落地

火山引擎边缘云

IoT 机器人 AIOT 智能IoT边缘服务 大模型

2024年职教展-2024全国职业教育产业博览会

秋硕展览

数字化转型背景下低代码开发模式变革的研究

不在线第一只蜗牛

低代码 数字化

mcgs笔记 构件 查看位置坐标与大小

万里无云万里天

自动化 HMI mcgs

Kotlin协程的取消机制:深入理解和优雅实现

伤感汤姆布利柏

什么是 Rainbond?打破 Kubernetes 的复杂性

北京好雨科技有限公司

Kubernetes 云原生 rainbond 企业 9 月 PK 榜

残疾人辅具展|2024年广州国际残疾人用品展会

秋硕展览

望繁信科技与华恒生物正式签约,共同开启流程数字化转型新篇章

望繁信科技

数字化转型 流程挖掘 流程资产 流程智能

6个 Spring websocket注解:整体架构分析与注解应用案例(必须收藏)

肖哥弹架构

Java spring websocket

mcgs笔记 工程上传功能

万里无云万里天

自动化 HMI mcgs

来云栖大会!探展云上开发,沉浸式体验云原生 + AI 新奇玩法

阿里巴巴云原生

阿里云 云原生

悲惨!刚入职没几天,无意间把数据库删了,很尴尬,原因很奇葩

五阳

程序员 java 架构

mcgs笔记 按钮 按下与抬起的差异设置

万里无云万里天

自动化 HMI mcgs

mcgs笔记 工具箱 元件库(公共图库)展示(下)

万里无云万里天

自动化 HMI mcgs

mcgs笔记 构件 标签的闪烁效果

万里无云万里天

自动化 HMI mcgs

皮阿诺七星服务,提升家居定制新体验

新消费日报

搭建Jellyfin、Plex、Emby媒体服务,贝锐花生壳轻松内网穿透远程访问

贝锐

NAS 群晖 #docker

技术干货 | YashanDB+Zabbix搭建监控可视化平台,手把手实操!

YashanDB

yashandb 崖山数据库

手工转测试开发轻松实现薪资 50%涨幅的逆袭之路

霍格沃兹测试开发学社

【开源鸿蒙】调试OpenHarmony轻量系统QEMU RISC-V版本

码匠许师傅

gdb qemu OpenHarmony risc-v

828华为云会议Flexus版重磅亮相,让每一场会议都高效!

轶天下事

inBuilder的业务领域划分

inBuilder低代码平台

微服务 低代码

图像检测【YOLOv5】——深度学习

芯动大师

深度学习 模型 Anaconda

摊牌了!一文教会你轻松上手豆包MarsCode 编程助手!

TRAE.ai

人工智能 AI 代码 教程 分享工具

【YashanDB知识库】执行sql语句时报YAS-04401 data type - expected, but BLOB got异常

YashanDB

yashandb 崖山数据库 yashandb知识库

来云栖大会!探展云上开发,沉浸式体验云原生 + AI 新奇玩法

阿里云云效

阿里云 云原生

【开源鸿蒙】运行OpenHarmony轻量系统QEMU RISC-V版本

码匠许师傅

qemu OpenHarmony risc-v

OpenAI千亿市值背后:外包数据标注员月薪不到两千,每天标注20万个单词_AI&大模型_Jaime Hampton_InfoQ精选文章