写点什么

OpenAI 千亿市值背后:外包数据标注员月薪不到两千,每天标注 20 万个单词

  • 2023-03-03
    北京
  • 本文字数:1906 字

    阅读完需:约 6 分钟

OpenAI千亿市值背后:外包数据标注员月薪不到两千,每天标注20万个单词

ChatGPT 被视为近几年最具创新性的 AI 工具之一。这款强大的 AI 聊天机器人几乎可以生成任何问题的文本,从莎士比亚的十四行诗,到用 5 岁孩子能理解的语言描述复杂的数学问题,可谓“无所不能”。

 

近日,TIME 发布了一篇独家报道,发现ChatGPT在构建内容过滤器时所使用的标注数据由肯尼亚工人完成,且每小时收入不足 2 美元。

 

根据作者 Billy Perrigo 的说法,数据标注员的任务是阅读和标注文本内容,从“互联网上最阴暗的角落”中提取“最血淋淋的细节表达,包括儿童性虐待、兽行、杀人、自杀、酷刑、折磨、自残和乱伦等内容。”

外包数据标注工人时薪不到 2 美元

 

Perrigo 提到,根据资历和绩效,这些工人的最低税后时薪仅为 1.32 美元,最高税后时薪也不过 1.44 美元。英国广播公司 BBC 的一份报告估计,肯尼亚约有 75%的工人住在非洲最大的贫民窟之一,内罗毕的基贝拉贫民窟。当地的失业率高达 50%,缺乏清洁水,也没有卫生设施可用。

 

承担这份外包工作的是 Sama(原 Samasource),一家位于旧金山的公司。该公司向来以建设“道德 AI”自居,号称要在数字工作与低收入人群之间搭设纽带。该公司在肯尼亚、乌干达和印度等地雇用人员,为谷歌、Meta 和微软等科技大厂提供数据标注服务。

 

作为OpenAI旗下最当红的聊天机器人,ChatGPT 采用的是升级版本的大语言模型GPT-3.5。该聊天机器人于去年 11 月下旬首度亮相,推出不到一周就吸引到了超百万用户。ChatGPT 的用例包括数字内容生成、写作和代码调试。与其他同样基于 GPT-3.5 模型的前任服务一样,由于大量使用从互联网处采集到的训练数据,ChatGPT极易输出有害内容。为了解决这个难题,OpenAI 必须为其开发内容过滤器。

 

2019 年,Sama 公司在肯尼亚雇佣大量工人,并声称帮助他们摆脱了贫困。

 

OpenAI证实,Sama 公司雇用的肯尼亚员工确实在帮助 ChatGPT 过滤各种有害内容。该公司发言人表示,“我们的使命是确保人工通用智能有益于全人类的福祉,也一直在努力打造安全有用的 AI 系统、控制其中的偏见与有害内容。只有对有害(文本和图像)进行分类和过滤,才能最大程度减少训练数据中所包含的暴力和性内容,同时创建出能够检测有害内容的工具。”

“做这份工作是一种精神创伤”

 

TIME 还采访了四围名 Sama 公司员工,他们表示自己的工作体验可以用“精神创伤”来形容。有三名工人表示,他们每天需要阅读 150 到 250 条材料片段,这些段落的范围从 100 个单词到 1000 多个单词不等,算起来,平均每小时他们最多要阅读和标注超过 2 万个单词;但 Sama 对此表示质疑,称员工每天只需要审查 70 条片段即可。

 

TIME 在报道中提到,Sama 组织的三支数据标注团队中,每个小组都专注于一个主题。大多数成员的月工资为 170 美元,奖金最高不超过 70 美元。如果准确性特别高或者标注速度特别快,还能赚到额外的佣金

 

报道称,以一天工作九个小时计算,那么税后时薪最低为 1.32 美元;如果能够达成所有考核要求,则时薪会略微上涨至税后 1.44 美元。Perrigo 还强调,肯尼亚不存在充分就业市场,所以很难对收入做出公平比较。不过在这批员工入职时,内罗毕接待员岗位的最低工资为每小时 1.52 美元。

 

Perrigo 发布推文称,“这样的工作条件也揭露出 AI 繁荣之下的阴暗面:AI 的发展,依靠的就是这群默默无闻的低薪工人。尽管他们为价值数十亿美元的新兴产业做出贡献,但仍然被严重边缘化。”随着微软与 OpenAI 的合作加深,OpenAI 的市场估值早已超过 300 亿美元(约 2072 亿元人民币)。

 

媒体 Quartz 也曾报道过此事,Sama 方面主动联系并对薪酬做了澄清,称其在东非地区设定的工资是其他内容审核公司的几乎两倍。“Sama 设定的月薪在 210 美元到 323 美元之间,达到肯尼亚最低工资的两倍以上,也远远超过了最低生活需求。相比之下,美国同类岗位的工资在每小时 30 至 45 美元之间。”

 

另外,Sama 还表示会为当地员工提供其他个人福利,包括咨询、冥想、祈祷、护理、游戏和本地艺术表演,“以及有益身心健康的全面餐饮服务”。但 TIME 在采访中得知,工人们为了完成每天的绩效考核,往往没时间去接受这些咨询指导。两位受访者表示,Sama 公司的管理层拒绝与他们一对一交流,转而用小组会议的形式代替。

 

2022 年 2 月,Sama 公司结束了与 OpenAI 间的服务合同,比预定计划提前的 8 个月。根据 TIME 的报道,双方的另一个数据标注项目已经启动,这次是处理包含非法内容的图像。OpenAI 发表了一份声明,称图像集中包含非法内容是因为沟通失误。

 

今年 1 月 10 日,Sama 公司宣布取消一切涉及敏感内容的剩余工作,包括与Facebook签订的价值 390 万美元的内容审核合同。接下来,Sama 将专注于为计算机视觉数据提供标注服务。

 

原文链接:

 

https://www.datanami.com/2023/01/20/openai-outsourced-data-labeling-to-kenyan-workers-earning-less-than-2-per-hour-time-report/

 

2023-03-03 16:174746
用户头像
李冬梅 加V:busulishang4668

发布了 1111 篇内容, 共 721.0 次阅读, 收获喜欢 1253 次。

关注

评论 1 条评论

发布
用户头像
苹果市值一万亿美元,你在富士康打螺丝,组装了几台iPhone,是不是得给你分一个亿。
2023-03-06 15:29 · 陕西
回复
没有更多了
发现更多内容

杭州悦数与伟仕佳杰达成战略合作,共绘图数据库市场新蓝图

悦数图数据库

图数据库 知识图

MES管理系统在人工智能方面的应用

万界星空科技

人工智能 智能工厂 mes 万界星空科技

Linux设备驱动系列(七)——真实的设备驱动程序

Linux内核拾遗

Linux Kenel 内核开发 设备驱动

杭州悦数参与国家重点研发计划“高性能可信跨境贸易支付监管关键技术研究”项目

悦数图数据库

Linux Bridge和Tap关系详解

天翼云开发者社区

云计算 Linux bridge

模型量化与量化在LLM中的应用 | 得物技术

得物技术

算法 性能优化 AIGC LLM 企业号 4 月 PK 榜

「软件测试面试题解析」限时优惠,助你高效备战,拿下心仪职位

测试人

软件测试

一本书了解AI的下一个风口:AI Agent

博文视点Broadview

从原始边列表到邻接矩阵Python实现图数据处理的完整指南

华为云开发者联盟

Python 开发 华为云 华为云开发者联盟 企业号2024年4月PK榜

以全栈智算拥抱生态,为AIGC种一棵向上生长的巨榕

脑极体

AI

Sora新突破!AI生成电影迈向新阶段,配音版Sora登场!将如何改变影视行业?

蓉蓉

人工智能 openai sora

英特尔软件定义架构赋能未来智能座舱

最新动态

三项国际人工智能顶会大奖!拿下!

天翼云开发者社区

人工智能 云计算 天翼云

春耕司法护农时,阳光便捷驻田间!

天翼云开发者社区

云计算 云服务 云电脑

万界星空科技MES系统中的业务过程管理流程

万界星空科技

生产管理系统 mes 车间管理

一键自动化博客发布工具,用过的人都说好(简书篇)

程序那些事

程序那些事 工具技巧

PCB中泪滴的作用

芯动大师

PCB 电路板 泪滴

DEKRA德凯2023年财年 创新引领韧性发展

财见

首届超算互联网峰会!天翼云弹性高性能计算E-HPC亮相!

天翼云开发者社区

云计算 高性能计算 互联网峰会

双栈网络使用什么技术实现总部网络能访问分部网络?

天翼云开发者社区

云计算 安全 网络 ipv6

小红书从记忆机制解读信息检索,提出新范式获得 EACL Oral

小红书技术REDtech

gr 检索 信息检索 GDR EACL

OpenAI千亿市值背后:外包数据标注员月薪不到两千,每天标注20万个单词_AI&大模型_Jaime Hampton_InfoQ精选文章