【AICon】AI 基础设施、LLM运维、大模型训练与推理,一场会议,全方位涵盖! >>> 了解详情
写点什么

OpenAI 千亿市值背后:外包数据标注员月薪不到两千,每天标注 20 万个单词

  • 2023-03-03
    北京
  • 本文字数:1906 字

    阅读完需:约 6 分钟

OpenAI千亿市值背后:外包数据标注员月薪不到两千,每天标注20万个单词

ChatGPT 被视为近几年最具创新性的 AI 工具之一。这款强大的 AI 聊天机器人几乎可以生成任何问题的文本,从莎士比亚的十四行诗,到用 5 岁孩子能理解的语言描述复杂的数学问题,可谓“无所不能”。

 

近日,TIME 发布了一篇独家报道,发现ChatGPT在构建内容过滤器时所使用的标注数据由肯尼亚工人完成,且每小时收入不足 2 美元。

 

根据作者 Billy Perrigo 的说法,数据标注员的任务是阅读和标注文本内容,从“互联网上最阴暗的角落”中提取“最血淋淋的细节表达,包括儿童性虐待、兽行、杀人、自杀、酷刑、折磨、自残和乱伦等内容。”

外包数据标注工人时薪不到 2 美元

 

Perrigo 提到,根据资历和绩效,这些工人的最低税后时薪仅为 1.32 美元,最高税后时薪也不过 1.44 美元。英国广播公司 BBC 的一份报告估计,肯尼亚约有 75%的工人住在非洲最大的贫民窟之一,内罗毕的基贝拉贫民窟。当地的失业率高达 50%,缺乏清洁水,也没有卫生设施可用。

 

承担这份外包工作的是 Sama(原 Samasource),一家位于旧金山的公司。该公司向来以建设“道德 AI”自居,号称要在数字工作与低收入人群之间搭设纽带。该公司在肯尼亚、乌干达和印度等地雇用人员,为谷歌、Meta 和微软等科技大厂提供数据标注服务。

 

作为OpenAI旗下最当红的聊天机器人,ChatGPT 采用的是升级版本的大语言模型GPT-3.5。该聊天机器人于去年 11 月下旬首度亮相,推出不到一周就吸引到了超百万用户。ChatGPT 的用例包括数字内容生成、写作和代码调试。与其他同样基于 GPT-3.5 模型的前任服务一样,由于大量使用从互联网处采集到的训练数据,ChatGPT极易输出有害内容。为了解决这个难题,OpenAI 必须为其开发内容过滤器。

 

2019 年,Sama 公司在肯尼亚雇佣大量工人,并声称帮助他们摆脱了贫困。

 

OpenAI证实,Sama 公司雇用的肯尼亚员工确实在帮助 ChatGPT 过滤各种有害内容。该公司发言人表示,“我们的使命是确保人工通用智能有益于全人类的福祉,也一直在努力打造安全有用的 AI 系统、控制其中的偏见与有害内容。只有对有害(文本和图像)进行分类和过滤,才能最大程度减少训练数据中所包含的暴力和性内容,同时创建出能够检测有害内容的工具。”

“做这份工作是一种精神创伤”

 

TIME 还采访了四围名 Sama 公司员工,他们表示自己的工作体验可以用“精神创伤”来形容。有三名工人表示,他们每天需要阅读 150 到 250 条材料片段,这些段落的范围从 100 个单词到 1000 多个单词不等,算起来,平均每小时他们最多要阅读和标注超过 2 万个单词;但 Sama 对此表示质疑,称员工每天只需要审查 70 条片段即可。

 

TIME 在报道中提到,Sama 组织的三支数据标注团队中,每个小组都专注于一个主题。大多数成员的月工资为 170 美元,奖金最高不超过 70 美元。如果准确性特别高或者标注速度特别快,还能赚到额外的佣金

 

报道称,以一天工作九个小时计算,那么税后时薪最低为 1.32 美元;如果能够达成所有考核要求,则时薪会略微上涨至税后 1.44 美元。Perrigo 还强调,肯尼亚不存在充分就业市场,所以很难对收入做出公平比较。不过在这批员工入职时,内罗毕接待员岗位的最低工资为每小时 1.52 美元。

 

Perrigo 发布推文称,“这样的工作条件也揭露出 AI 繁荣之下的阴暗面:AI 的发展,依靠的就是这群默默无闻的低薪工人。尽管他们为价值数十亿美元的新兴产业做出贡献,但仍然被严重边缘化。”随着微软与 OpenAI 的合作加深,OpenAI 的市场估值早已超过 300 亿美元(约 2072 亿元人民币)。

 

媒体 Quartz 也曾报道过此事,Sama 方面主动联系并对薪酬做了澄清,称其在东非地区设定的工资是其他内容审核公司的几乎两倍。“Sama 设定的月薪在 210 美元到 323 美元之间,达到肯尼亚最低工资的两倍以上,也远远超过了最低生活需求。相比之下,美国同类岗位的工资在每小时 30 至 45 美元之间。”

 

另外,Sama 还表示会为当地员工提供其他个人福利,包括咨询、冥想、祈祷、护理、游戏和本地艺术表演,“以及有益身心健康的全面餐饮服务”。但 TIME 在采访中得知,工人们为了完成每天的绩效考核,往往没时间去接受这些咨询指导。两位受访者表示,Sama 公司的管理层拒绝与他们一对一交流,转而用小组会议的形式代替。

 

2022 年 2 月,Sama 公司结束了与 OpenAI 间的服务合同,比预定计划提前的 8 个月。根据 TIME 的报道,双方的另一个数据标注项目已经启动,这次是处理包含非法内容的图像。OpenAI 发表了一份声明,称图像集中包含非法内容是因为沟通失误。

 

今年 1 月 10 日,Sama 公司宣布取消一切涉及敏感内容的剩余工作,包括与Facebook签订的价值 390 万美元的内容审核合同。接下来,Sama 将专注于为计算机视觉数据提供标注服务。

 

原文链接:

 

https://www.datanami.com/2023/01/20/openai-outsourced-data-labeling-to-kenyan-workers-earning-less-than-2-per-hour-time-report/

 

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-03-03 16:173504
用户头像
李冬梅 加V:busulishang4668

发布了 817 篇内容, 共 384.7 次阅读, 收获喜欢 1003 次。

关注

评论 1 条评论

发布
用户头像
苹果市值一万亿美元,你在富士康打螺丝,组装了几台iPhone,是不是得给你分一个亿。
2023-03-06 15:29 · 陕西
回复
没有更多了
发现更多内容

应对 Job 场景,Serverless 如何帮助企业便捷上云

阿里巴巴云原生

阿里云 Serverless 云原生 函数 Job

KubeMeet 深圳站回顾:应对云原生边缘计算落地挑战

阿里巴巴云原生

阿里云 Kubernetes 云原生 线下活动

阿里云徐立:面向容器和 Serverless Computing 的存储创新

阿里巴巴云原生

阿里云 Serverless 容器 云原生

如何利用 “集群流控” 保障微服务的稳定性?

阿里巴巴云原生

阿里云 高可用 云原生 集群 AHAS

linux比较两个目录的差异

入门小站

Linux

在线文本差集计算工具

入门小站

工具

28 K8S之控制器基础

穿过生命散发芬芳

k8s 11月日更

架构训练营 - 模块 5 作业

焦龙

架构训练营

选手机的一点建议

李印

手机 生活随想

技术管理知识写作系列

Melody

写作计划

阿里云 Serverless 助力企业全面拥抱云原生

阿里巴巴云原生

阿里云 Serverless 云原生 企业

微信 ClickHouse 实时数仓的最佳实践

腾讯云大数据

Clickhouse 云数据仓库

元宇宙对网络技术的挑战,什么样的网络才能承载元宇宙的野心?

CECBC

【架构实战营】模块五作业

liu🍊

phpstudy开启Apache服务显示80端口被占用

咿呀呀

PHPStudy

1 分钟 Serverless 极速抽盲盒,自己部署自己抽!

阿里巴巴云原生

阿里云 Serverless 云原生

记录

Melody

微博评论架构设计

天天向上

架构实战营

[Pulsar] Batch Messge的基本原理

Zike Yang

Apache Pulsar 11月日更

Flink 实践教程-入门(8): 简单 ETL 作业

腾讯云大数据

flink 流计算 Oceanus

《重学Java高并发》Sempahore的使用场景与常见误区

中间件兴趣圈

Java高并发 Sempahore

入驻快讯|欢迎AfterShip正式入驻 InfoQ 写作平台!

InfoQ写作社区官方

入驻快讯

没有一个人喜欢被改变 ——阅读《高绩效教练》有感

研发管理Jojo

倾听 敏捷教练 引导和教练

微博评论架构分析

🌾🌾🌾小麦🌾🌾🌾

架构实战营

DevOps反模式

俞凡

DevOps

如何设计业务高性能高可用计算架构

天天向上

架构实战营

云原生体系下 Serverless 弹性探索与实践

阿里巴巴云原生

阿里云 Serverless 云原生 弹性 SAE

哈佛商业评论:面向未来的组织

石云升

读书笔记 11月日更

领导力学习课-总结

李印

个人成长 管理

为什么SOLID原则仍然是现代软件架构的基石

topsion

CleanCode SOLID

瞰见 | 刚刚,暴涨的 GitLab 给我们带来了怎样的开源思考?

OpenTEKr

狄安瞰源

OpenAI千亿市值背后:外包数据标注员月薪不到两千,每天标注20万个单词_AI&大模型_Jaime Hampton_InfoQ精选文章