AICon 北京站 Keynote 亮点揭秘,想了解 Agent 智能体来就对了! 了解详情
写点什么

工资暴跌,还要训练 AI 替代自己?数据标注员正在被大厂抛弃

  • 2024-01-15
    北京
  • 本文字数:2520 字

    阅读完需:约 8 分钟

大小:1.18M时长:06:54
工资暴跌,还要训练AI替代自己?数据标注员正在被大厂抛弃

AI 数据标注员正逐步向人力成本更低的城市渗透,但即便如此,似乎也难逃被 AI 替代的命运。

苹果将关闭 121 人的 AI 标注团队

 

据彭博社 1 月 14 日报道,据知情人士透露,苹果公司将关闭圣地亚哥一个与人工智能业务相关的 121 人团队,这将导致许多员工面临被解雇的风险。

 

据悉,该团队在中国、印度、爱尔兰和西班牙设有办事处,负责通过听取对语音服务 Siri 发出的询问,并确定 Siri 是否准确地听到和处理问题来对其进行改进。位于圣地亚哥的团队成员专注改善用户以希伯来语、英语、西班牙语、葡萄牙语、阿拉伯语、法语等使用 Siri 的情况。

 

知情人士称,这个名为“数据操作标注”的团队上周三被告知,他们将搬迁至奥斯汀,与在得克萨斯州的同一团队合并。对于愿意在 6 月底前搬到奥斯汀的团队成员,可以保留自己的工作职位,苹果也将提供 7000 美元搬家补助。至于选择从苹果离职的人,则可获得至少四周遣散费以及六个月健康保险,原本工作职位会被取消。

 

苹果发言人证实了公司的这一决定,称公司将把美国当地的“数据操作标注”团队聚集到奥斯汀园区,团队大多数人现在已经在这个园区工作。她补充说,“目前在职的每个人都有机会到奥斯汀继续在苹果的工作。”

 

但对圣地亚哥的团队成员而言,苹果这一决定令他们讶异。知情人士称,该团队一直在苹果租用的办公室工作,原本将在一月底搬到苹果总部,现在被迫搬到奥斯汀,大多数受影响的员工并不愿意搬到这么远的地方。

 

苹果告诉这些员工,必须在二月底之前决定是否前往奥斯汀,如果不愿意这么做,会在 4 月 26 日遭到解雇。虽然苹果称他们可以申请转调其他职位,但部分员工认为他们不具工程背景,内部转岗机会恐怕不多。

AI 数据标注员正逐步向人力成本更低的城市渗透

 

数据标注主要是针对语音、图像、文本等进行标注,主要通过做标记、标重点、打标签、框对象、做注释等方式对数据集作出标注,再将这些数据集给机器训练和学习。数据标注的类型主要有:拼音标注、韵律标注、词性标注、音素时间点标注、语音转写、分类标注、打点标注、标框标注、区域标注等等。

 

在数据标注行业流行着一句话,“有多少智能,就有多少人工”。由于需要标注的数据规模庞大且成本较高,一些互联网巨头及一些 AI 公司很少自己设有标注团队,大多交给第三方数据服务公司或者数据标注团队来做。

 

在 2019 年以前,苹果公司的“数据操作标注”团队主要由外部承包商组成,后来考虑到隐私安全等问题,苹果解雇了承包商,改由全职员工替代。该团队少数员工已经开始协助苹果采用大型语言模型,这些人正在检查 Siri 潜在问题。

 

有评论认为,苹果公司选择将 AI 数据标注团队搬迁至奥斯汀,或许与当地的人力成本有关。奥斯汀数据注释服务公司 Alegion 客户成功总监丹尼尔·凯林曾表示,“整个数据标注行业竞争非常激烈,每个公司都想在世界其他地方找到更便宜的劳动力。”

 

比如,众包平台 Mechanical Turk 上的 20 万名 AI 数据标注员就分布在人力成本低廉的非洲和东南亚。印度甚至涌现了不少数据标注村,他们为美国、欧洲、澳洲和亚洲的 AI 公司服务,Facebook 就曾将部分社交内容标注的工作外包给了一家印度公司。而在中国,上百万名 AI 数据标注员分布在贵州、山西、山东、河南等省份的二三线城市,并逐步向人力成本更低的县城渗透。

薪资暴跌,也难逃被 AI 取代?

 

不少 AI 数据标注员表示,在前几年 AI 数据标注薪资还较为可观——至少与现在相比是这样。

 

据 Tech 星球报道,一位从事 AI 数据标注的消息者称,在 2017 年,单价高的时候,拉一个 2D 框就有 1 毛多,“我最高的时候干了 10 多个小时,一天就赚了 600 多元”。不过,这不是最高的,另一位标注人员称,早期 2D 拉框的价格最高能达到 5 毛钱。(注:拉框是数据标注中常见的一种操作,标注员根据要求对图片中的物体,如车辆、红路灯、障碍物等画框标注。拉框分为 2D 和 3D,后者的价格会更贵一些。)但这种热度并没有持续多少,现在标注一个图片的单价越来越低,最低的只有 4 分钱。

 

即便薪资暴跌,AI 数据标注员还是难逃被 AI 取代的命运——毕竟在 AI 面前,无论成本还是效率,人类可以说是毫无优势。

 

以 ChatGPT 为例,苏黎世大学研究发现,成本上,ChatGPT 平均每个标注成本低于 0.003 美元,比众包平台便宜 20 倍;效率上,在相关性、立场、主题等任务中,ChatGPT 也是以 4:1 的优势“碾压”人类。

 

来自卡耐基梅隆大学、耶鲁大学和加州大学伯克利分校的一组研究人员更是发现: GPT-4 在数据集标注表现上优于他们雇用的最熟练的众包员工。这一突破为研究人员节约了超过 50 万美元和 2 万个工时。

 

有评论认为,AI 数据标注员需要做好被 AI 取代的准备。目前在自动驾驶领域,已经有车企开始采用 AI 进行标注。

 

理想汽车董事长兼 CEO 李想曾在 2023 年 4 月份举行的一场论坛上表示,当理想汽车使用软件 2.0 的大模型,通过训练的方式进行自动化标定,过去需要用一年做的事情,基本上 3 个小时就能完成,效率是人的 1000 倍。

 

特斯拉也一直在积极推进自动标注的进展,从 2018 至今,特斯拉的标注经历了 4 个阶段:

 

  • 第 1 阶段(2018):只有纯人工的 2 维的图像标注,效率非常低;

  • 第 2 阶段(2019):开始有 3D label,但是是单趟的人工的;

  • 第 3 阶段(2020):采用 BEV 空间进行标注,重投影的精度明显降低;

  • 第 4 阶段(2021):采用多趟重建去进行标注,精度、效率、拓扑关系都达到了极高的水准。

 

2022 年 6 月,特斯拉裁撤了 200 名为特斯拉标注视频以改进辅助系统的美国员工。目前,特斯拉的自动标注能力大幅改善,标注 10000 个不到 60 秒的视频,大模型只需要运行一周即可,而同样的工作量人工标注却需要几个月的时间。

 

但也有评论认为,当前 AI 完全取代人工标注还存在一定局限性。苏黎世大学政治学系政策分析教授、论文联合作者之一 Fabrizio Gilardi 表示,“当前认定 ChatGPT 能够取代人类工作者还为时过早。我们的论文只展示出 ChatGPT 在数据标注方面的潜力,但还需要更多研究才能充分探索 ChatGPT 在这一领域中的实际表现。”


参考链接:

https://www.bloomberg.com/news/articles/2024-01-14/apple-to-shutter-121-person-san-diego-ai-team-in-reorganization

https://www.infoq.cn/article/2hkNxGO1L0RamfzS6w0z?utm_campaign=geek_search&utm_content=geek_search&utm_medium=geek_search&utm_source=geek_search&utm_term=geek_search

2024-01-15 14:386140

评论

发布
暂无评论
发现更多内容

【愚公系列】2022年06月 通用职责分配原则(九)-受保护变量原则

愚公搬代码

6月月更

滴滴工程效能平台建设之路

laofo

互联网 DevOps 研发效能 持续交付 工程效能

Java String 手工引用指针

HoneyMoose

Eureka的InstanceInfoReplicator类(服务注册辅助工具)

程序员欣宸

Java SpringCloud 6月月更

DOM编程

大熊G

JavaScript 前端 6月月更

一文走近ZMQ

No Silver Bullet

6月月更 ZMQ

唐太宗把微服务的“心跳机制”玩到了极致!

悟空聊架构

微服务 Eureka 悟空聊架构 6月月更 心跳机制

我对新能源汽车的一些看法(37/100)

hackstoic

新能源汽车 生活杂谈

面试突击59:一个表中可以有多个自增列吗?

王磊

Java 面试

5道面试题,拿捏String底层原理!

码农参上

string 底层原理 死磕 Java 基础

数据治理的重要性

奔向架构师

数据治理 数据资产 6月月更

Go Web 编程入门:验证器

宇宙之一粟

Go 语言 表单校验 6月月更

如何使用物联网低代码平台进行报表管理?

AIRIOT

物联网 低代码平台

Fabric.js IText 手动设置斜体 🎋

德育处主任

JavaScript 前端 canvas Fabric.js 6月月更

钟珊珊:被爆锤后的工程师会起飞|OneFlow U

OneFlow

自我介绍 实习

redis精讲系列介绍七-过期策略

Nick

Redis 核心技术与实战 6月月更 redis精讲 redis 过期策略 redis 底层原理

JAVA SOCKET编程——TCP/UDP

乌龟哥哥

6月月更

axios框架入门教程

倔强的牛角

axios 6月月更

Linux开发_curl调用网络接口

DS小龙哥

6月月更

Java自定义Once方法保障单次执行

FunTester

Gitlab运维篇之——备份及恢复

阿呆

#GitLab 备份恢复

再次认识 WebAssembly

devpoint

typescript webassembly 6月月更

DOM 节点

Jason199

DOM js DOM事件 6月月更

Java 字符串引用(String Interning)

HoneyMoose

Java String 构造方法中的内存分配

HoneyMoose

JVM调优简要思想及简单案例-老年代空间分配担保机制

zarmnosaj

6月月更

leetcode 279. Perfect Squares 完全平方数(中等)

okokabcd

LeetCode 动态规划 算法与数据结构

Java String 文字(Literal)和 对象(Object)初始化

HoneyMoose

Java String 性能和优化

HoneyMoose

IDE 的主题应该用亮色还是暗色?终极答案来了!

胡说云原生

ide vscode IDEA goland ide主题

如何进行高效简洁的电子文档管理

小炮

工资暴跌,还要训练AI替代自己?数据标注员正在被大厂抛弃_AI&大模型_凌敏_InfoQ精选文章