InfoQ 研究中心诚意出品,一份报告带你走进中国 2000 万开发者 了解详情
写点什么

AI 数据标注不是“脏活累活”

  • 2020-01-14
  • 本文字数:3238 字

    阅读完需:约 11 分钟

AI 数据标注不是“脏活累活”

如果将人工智能比作“火箭”,那么,数据就是助推火箭上升的“燃料”。机器学习依赖大量的已标注数据,数据标注让机器理解并认识世界。数据标注是人工智能发展过程中不可缺的一环,是 AI 金字塔构建的基础力量。与 AI “台前”的繁荣、高光形成鲜明对比的是,数据标注往往居于幕后,常被人忽视,也受到一些偏见,“血汗工厂”、“AI 富士康”、“新型民工”…随着 AI 深入落地对数据提出更高的要求,数据标注行业也从草莽生长阶段逐渐过渡到更精细化的成长期。


“AI 金字塔”背后的数据标注

数据是机器学习的基础,机器学习建立在数据建模基础上,丰富的标签是机器学习成功建模的前提。监督学习是目前应用最广泛的机器学习算法,该方法强依赖标注数据,它通过学习大量标注的训练样本来构建预测模型。深度学习也需要大量数据的“投喂”,以深度学习为代表的机器学习框架都需要在大型的监督数据集上进行训练,百分点首席算法科学家苏海波曾表示,深度学习只有在拥有充足标注数据的场景下才能发挥它的威力,但在很多实际的应用中却没有足够的标注数据。


AI 技术在全场景的落地以及大数据时代的到来产生了海量、指数级别的数据,数据获取也相对变得容易,然而,想要获得大量的已标注数据却并不容易,往往需要付出很大的人力、物力、财力成本。在医疗 AI 等专业门槛较高的细分领域,缺乏标注数据就成了阻碍行业发展的“绊脚石”,腾讯优图实验室总监郑冶枫曾在接受 AI 前线采访时表示,医疗数据标注“难”一方面体现在顶尖的医疗数据标注人才缺乏,另一方面,临床、科研任务重,很多医疗专家没有时间和精力做数据标注。


数据标注主要是针对语音、图像、文本等进行标注,主要通过做标记、标重点、打标签、框对象、做注释等方式对数据集作出标注,再将这些数据集给机器训练和学习。数据标注的类型主要有:拼音标注、韵律标注、词性标注、音素时间点标注、语音转写、分类标注、打点标注、标框标注、区域标注等等。由于需要标注的数据规模庞大且成本较高,一些互联网巨头及一些 AI 公司很少自己设有标注团队,大多交给第三方数据服务公司或者数据标注团队来做。


数据服务是标贝科技的起家业务,自 2016 年成立以来,标贝科技为 BAT、AI 独角兽等多家公司提供过语音、图像、NLP 数据的采集、标注等服务。据标贝科技数据负责人缪冠琼介绍,标贝有自研的采集标注平台,包括长语音(对话、持续)标注平台和短语音(十几秒)标注平台, AI 语音合成数据标注平台、数据工场 APP 等。在标注平台的选择上,会依据图像、语音数据、数据来源、客户需求等综合决定。以语音合成数据标注为例,会标注其音字、韵律、音素时间点、词性等标签。


人工智能的繁荣催生并壮大了数据标注行业,也创造了大量的就业岗位。有数据显示,目前中国的全职数据标注从业者有约 20 万人,兼职数据标注从业者有约一百万人,全国从事数据标注业务的公司约有几百家。


数据“民工” ?

在数据标注行业流行着一句话,“有多少智能,就有多少人工”。数据标注是人工智能发展中至关重要的一环,却常常容易被人忽视。


相对而言,数据标注是人工智能领域“入门级”的工种,单从工作流程看,其技术含量较低,人是这项工作中最大的影响“因素”,久而久之,“劳动密集型”成为外界给数据标注行业贴上的一个标签。低门槛吸引了众多农民、学生、残疾人群体加入到数据标注大军中,在我国河南、河北、贵州、山西等地的四五线城市还出现了一些特色的“数据标注村”。


不止中国,向劳动力更充足、成本更低的地方迁移也是全球数据标注行业的发展趋势。印度涌现了不少数据标注村,他们为美国、欧洲、澳洲和亚洲的 AI 公司服务,Facebook 就曾将部分社交内容标注的工作外包给了一家印度公司。


上述务工者也由此成为了人工智能浪潮中的参与者,尽管待遇上远远少于其他人工智能从业者,但相较传统的体力工作,数据标注员的工作倒是更轻松,体面。不过,硬币的另一面是,这项工作流程简单,单调乏味,数据标注员日复一日重复“画框”的工作…关于数据标注行业是“脏活累活”、“数据民工”的论调也四散而起。


对于这些“声音”,缪冠琼并不认同。


“我觉得(它)不是‘脏活累活’行业 ,因为这并不是一个什么人都可以做的工作。AI 本身发展很快,随着应用产品落地,对数据的要求越来越高,对数据采标人员的素质也提出了高要求“。考虑到外包团队服务质量难以把控等因素,标贝科技所承接的项目主要依靠自有数据标注团队,其在天津、长春等城市设有数据团队,兼职人员则视项目大小临时扩容,遴选兼职人员时更考虑专业水平,要求具有语言、方言背景,或者有数据标注经验,无经验者要经过至少 6 个月培训。


缪冠琼表示,数据标注行业的发展越来越趋向于专业化,早期多以中文数据标注为主,现在随着多语种、方言、个性化标注等发展标注需求的增加,并不是随便“拉来”很多人就可以做的,需要专业的人才。此外,“血汗工厂”这种情形多出现在行业早期且多针对于只有数据标注一项业务的小团队,它们承接不了一些复杂的、定制化的项目。从工作量上看,结合客户需求,以语音标注为例,标贝科技的数据标注员一个人工作一天的有效标注语音时长为 1 小时。


机器标注比重提升,但不可能取代人工

蛮荒时代已过去了。


《2019 年中国人工智能基础数据服务行业白皮书》分析指出,2010-2016 年为数据服务行业的“初生期”,早期数据标注需求激增,加之入行门槛低,涌入了大量玩家,鱼龙混杂。自 2017 年以来,伴随着 AI 深入落地到各个应用场景中,数据标注行业了进入成长期,上层应用端的厂商对数据标注质的要求不断提高,如自动驾驶、运动图像、计算机视觉等领域的数据标注难度很高。


行业格局渐渐清晰,马太效应明显。据了解,国内从事数据标注业务公司/团队约有几百家,其中独立做整个数据质量服务的约百余家,能够提供数据采标服务一体化的有几十家,能够提供高标准基础数据服务的仅有十几家。现阶段,下游 AI 算法研发单位多将业务分流给不同数据服务公司加之数据标注相关标准待完善,该行业还没有出现大的巨头公司。


这是一个尚未饱和的市场,同样,这也意味着巨大的发展空间。据统计,2018 年中国人工智能基础数据服务市场规模为 25.86 亿元,行业年复合增长率为 23.5%。


缪冠琼认为,受数据安全和质量标准不断提升及相关数据政策出台影响,一些不满足行业标准及客户需求的将会被市场淘汰。她补充,“行业目前正处于一个上升的、快速发展的阶段,整体在朝着个性化、专业化的方向发展,从早期较简单的、通用的数据过渡到更复杂的个性化的、场景化的数据,对于很多细分领域,需要大量真实的模型进行标注去迭代模型,而非简单的通用数据可以满足的”。


数据标注行业也已经开始进入到人机协作的阶段,数据标注市场需求量仍旧很大,需要更加专业的人及高效的机器协助,机器标注所占的比重会不断提升,AI 技术与数据互补,通过 AI 技术提升数据效率,数据反过来服务于技术。


为降低人工成本,提高效率,不少互联网技术公司及第三方数据服务商在开发自己的标注工具。去年 10 月,Google 发布了用于完整图像标注的人机协作接口 Fluid Annotation,利用它标注图像中每个对象和背景区域的类标签与轮廓,可将标注数据集的创建速度提高三倍。数据标注众包平台也不断涌现,京东众智、百度众测、figure-eight、亚马逊的 Mechanical Turk 等。


未来,机器标注、人工辅助将成为可以预见的发展趋势。这对“数据标注村”来说或许并不是一件好事。但缪冠琼认为,机器不可能完全取代人工。现阶段人工标注的准确度要高于机器,机器只能跑出有一定比例的正确结果,更精确的结果仍需要人工来标注,且发挥的作用更关键。此外,在质检环节,人的作用也无可替代,标贝数据校对采用人工为主的处理方式,采用遵循“一审、二校、三验”流程,机器会抽检、验收一部分数据并给出预处理结果,最终的结果要靠精细化的人工校对。


嘉宾介绍

缪冠琼,标贝科技联合创始人,数据业务负责人,语音及数据领域专家,行业经验超过 17 年以上,参与多本专业书籍编写,在产品与数据的场景结合上有独特的解决方案。


2020-01-14 13:584315
用户头像
刘燕 InfoQ高级技术编辑

发布了 944 篇内容, 共 337.9 次阅读, 收获喜欢 1718 次。

关注

评论 1 条评论

发布
用户头像
机器学习就好比种果树,训练数据是农场里的肥料和土壤。数据标签越准确,特征越丰富,土壤就越肥沃,营养就越充分。种出的果儿越大越甜。 数据标注做不好,土地就贫瘠,自然而然,生产出的数据模型也就差一些。
2020-01-17 17:47
回复
没有更多了
发现更多内容

如何利用区块链改进金融系统身份验证?

CECBC

工作想法小计2/7 - 2/11

非晓为骁

个人成长 开发 工作方式 Go 语言

RPA进阶(一):走近 RPA 世界

No Silver Bullet

RPA 机器人流程自动化 2月月更

电子书《大型组织深入推广零代码应用平台的行动指南》正式发布!

明道云

LabVIEW生成应用程序(exe)和安装程序(installer)

不脱发的程序猿

LabVIEW 生成应用程序(exe) 安装程序(installer)

基于51单片机室内灯光控制系统

DS小龙哥

2月月更

DOM 节点的克隆和导入

编程三昧

JavaScript 前端 DOM 2月月更

Kubernetes集群仪表盘dashboard&Kuboard安装Demo

山河已无恙

Kubernetes 2月月更

韵达基于云原生的业务中台建设 | 实战派

阿里巴巴云原生

阿里云 云原生 业务中台 合作案例

Go反射的三大法则

linlh

反射 元编程 Go 语言 2月月更

消息队列存储消息数据的表结构

皓月

「架构实战营」

gopher成长之路(四):GO开发工程师写QT

非晓为骁

个人成长

kube-scheduler源码分析(1)-初始化与启动分析

良凯尔

源码 Kubernetes 容器 源码分析 #Kubernetes#

显示器选购总结-戴尔2705QM-明基PD2700U

liin

总结 经验分享

2022年的元宇宙:抢人、烧钱、突破体验边界

CECBC

如何打造一款得心应手的VS Code?

Jackpop

Kubernetes核心组件-ETCD详解

巨子嘉

容器 云原生 etcd

The Rust Programming Language

Joseph295

LabVIEW跳转访问网页

不脱发的程序猿

LabVIEW 跳转访问网页

办公效率起飞了!Python终于解放了我的双手

Jackpop

总算彻底搞懂Python集合了

Jackpop

鸿蒙学习笔记之使用 XML 方式创建布局

宇宙之一粟

鸿蒙 java UI 2月月更

【C语言】一维数组

謓泽

C语言 2月月更 一维数组

从冬奥看中国科技(五):漫天塞地物联网

脑极体

也许我们可以用另一种角度与观点看待世界所发生的事情,让你有所解答。

叶小鍵

为什么需要单元测试?

蜜糖的代码注释

单元测试 后端开发 2月月更

Go语言图书管理RESTful API开发实战

Jackpop

设计消息队列存储消息数据的 MySQL 表格

swallowluo

架构实战营 #架构实战营 「架构实战营」

技术盘点:2022年云原生架构趋势解读

阿里巴巴云原生

阿里云 架构 云原生 趋势

AI 数据标注不是“脏活累活”_AI_刘燕_InfoQ精选文章