FinOps有望降低企业50%+的云成本! 了解详情
写点什么

Google 发布 Fluid Annotation,数据标注速度提高三倍!

Jasper Uijlings

  • 2018-11-05
  • 本文字数:1749 字

    阅读完需:约 6 分钟

Google 发布 Fluid Annotation,数据标注速度提高三倍!

AI 前线导读: 支撑人工智能的崛起的背后不仅有科学家、程序员,还有 “农民工”。这些所谓的农民工就是数据标注员。在人工智能灼热与闪亮的背后,数据标注产业,作为做基础的支撑,却显得格外粗粝与拙朴。这个产业就是个“血汗工厂”,引用该产业的一个员工的说法:“人工智能就像是一个孩子,标注好的图片就像是孩子的食物,而我们就是制作食物的人,最苦最累的我们做了,成名的只是那些制造孩子的人。” 这话说得没有错。那么,我们能不能让机器解放这些数据标注员呢?Google AI 就推出了 Fluid Annotation ,旨在提高数据标注的能力。

基于现代深度学习的计算机视觉模型(如由 TensorFlow 对象检测 API 实现的模型)的性能取决于日益增大的标注训练数据集(如 Open Images)的可用性。然而,获得高质量的训练数据很快成为计算机视觉的主要瓶颈。对于像语义分割(semantic segmentation)这样的像素级预测任务尤为如此,语义分割在自动驾驶、机器人和图像搜索之类等有广泛的应用。实际上,传统的手动标注工具需要使用注释器仔细点击边界来勾勒出图像中每个对象,这种过程很令人乏味,如下面的视频所示。在 COCO+Stuff 数据集中标注一个图像需要 19 分钟,而完成整个数据集的标注需要 53000 个小时!

AI 前线注:
使用 TensorFlow 对象检测 API 实现的计算机视觉模型可以参见《 http://ai.googleblog.com/2017/06/supercharge-your-computer-vision-models.html》(https://ai.googleblog.com/2017/06/supercharge-your-computer-vision-models.html)。
关于标准训练数据集 Open Images,可参见《Announcing Open Images V4 and the ECCV 2018 Open Images Challenge》( https://ai.googleblog.com/2018/04/announcing-open-images-v4-and-eccv-2018.html)。
语义分割的应用可参见《Semantic Image Segmentation with DeepLab in TensorFlow》( https://ai.googleblog.com/2018/03/semantic-image-segmentation-with.html)

复制代码
视频地址:https://v.qq.com/x/page/t0761gtjon6.html

复制代码
左图为 COCO 数据集的图像示例,右图为像素级语义标注。

我们将在 2018 ACM Multimedia Conference 会议的 Brave New Ideas 公开论文《 Fluid Annotation:用于完整图像标注的人机协作接口》(Fluid Annotation: A Human-Machine Collaboration Interface for Full Image Annotation),在这篇论文中,我们探讨了机器学习驱动的接口,用于标注图像中每个对象和背景区域的类标签与轮廓,从而将标注数据集的创建速度提高三倍。

AI 前线注: Fluid Annotation: A Human-Machine Collaboration Interface for Full Image Annotation 论文地址为: https://arxiv.org/abs/1806.07527

Fluid Annotation 从强语义分割模型的输出开始,人们要做标注工作,可以使用自然用户接口通过机器辅助编辑操作进行修改。我们的接口可以让标注者选择正确的内容和顺序,使他们能够有效地将精力集中在机器尚未知晓的内容上。

复制代码
COCO 数据集中图像 Fluid Annotation 接口的可视化效果。

更确切地说,为了标注一张图像,我们首先通过预训练的语义分割模型(Mask R-CNN)来运行它。这将生成大约 1000 个带有类标签和置信度分数的图像片段。具有最高置信度的片段用于初始化标记,并将标记呈现给注释器。之后,注释器可以:(1)从机器生成的候选列表选择现有片段的标签。(2)添加一个片段来覆盖缺失的对象。机器识别出最可能预先生成的片段,通过这些片段,注释器可以滚动并选择最佳片段。(3)删除现有片段。(4)改变重叠片段的深度顺序。要更好地了解这个接口,请访问此网址 https://fluidann.appspot.com/ 来尝试 Demo(仅限于桌面)。

AI 前线注: Mask R-CNN 论文参见 https://arxiv.org/abs/1703.06870

在三幅 COCO 图像(左)分别使用传统手工标注(中)与 Fluid Annotation (右)的对比。虽然使用手工标注工具时,对象边界通常更精确,但标注差异的最大来源是由于人类注释器通常不同意确切的对象类。

Fluid Annotation 是使图像标注更快、更容易的第一步探索。在未来的工作中,我们的目标是改进对象边界的标注,通过加入更多的机器智能,使接口更快,最后扩展接口来处理以前看不到的类,而这些类最需要高效的数据收集。

查看英文原文: https://ai.googleblog.com/2018/10/fluid-annotation-exploratory-machine.html

2018-11-05 07:592434
用户头像

发布了 361 篇内容, 共 156.8 次阅读, 收获喜欢 926 次。

关注

评论 1 条评论

发布
用户头像
学习了
2018-11-06 13:24
回复
没有更多了
发现更多内容

Zilliz 论文入选数据库顶会 VLDB'22

Zilliz

数据库 分布式 云原生 VLDB'22

如何让开发者直接在应用后台控制用户的运动状态?

HMS Core

nft系统开发

开源直播系统源码

区块链 NFT 数字藏品 数字藏品软件开发

ChaosBlade Java 场景性能优化,那些你不知道的事

Java快了!

java;

数据科学家、数据工程师和数据分析师三个角色的区别是什么

雨果

数据分析师 数据科学 数据工程师

JavaWeb -JavaBean MVC Filter 监听器 过滤器

喜羊羊

9月月更

云数据库技术|“重磅升级”后再测TDSQL-C

数据库 polarDB 玖章算术 TDSQL-C

Java 多线程:基础

Java快了!

java;

为什么越来越多博士逃离科研?

博文视点Broadview

VUE 项目本地没有问题,部署到服务器上提示错误

HoneyMoose

Qt|自定义Widget实现互斥效果问题

中国好公民st

qt QWidget 9月月更

javaweb-JSP

喜羊羊

9月月更

【JavaWeb】Servlet系列——HttpServletRequest接口详解

胖虎不秃头

Web java; 9月月更

Sprint Review能不能做成Demo演示?

LigaAI

Scrum 敏捷开发 迭代增量开发 高效办公 企业号九月金秋榜

Linux系统安装Redis

Centos 7 redis 底层原理 9月月更

中秋节,华为云AI送上超级大月亮制作教程,体验赢开发者键鼠套装

华为云开发者联盟

人工智能 华为云 中秋节 企业号九月金秋榜

【活动预告】数据集成海外专场Meetup:走进Shopee,聊透SeaTunnel优化实践

Apache SeaTunnel

技术分享 数据同步 数据集成 社区活动

计网复习二,网络应用

前端小刘不怕牛牛

计算机网络 HTTP 9月月更

JavaScript 基础知识

喜羊羊

9月月更

客户案例|宜泊科技怎样实现智慧停车可观测

观测云

库调多了,都忘了最基础的概念 <锁与线程篇1>

知识浅谈

线程 9月月更

4天带你上手HarmonyOS ArkUI开发

HarmonyOS开发者

HarmonyOS

[Go WebSocket] 多房间的聊天室(一)思考篇

HullQin

Go golang 后端 websocket 9月月更

讲究卡路里多少的美食出圈了!维小饭被评为“2022中国轻食十大品牌”

联营汇聚

调用 sap.ui.base.ManagedObject 的构造函数时,如何传递绑定路径进去

Jerry Wang

JavaScript SAP SAP UI5 ui5 9月月更

数据治理(十一):数据安全管理Ranger初步认识

Lansonli

数据治理 9月月更

TDengine支持多种写入协议,四种写入方式提效大全

TDengine

tdengine 开源 时序数据库 企业号九月金秋榜

面试突击:什么是跨域问题?如何解决?

Java快了!

java;

【C语言深度剖析】详解strlen与sizeof的区别及用法

Albert Edison

C语言 sizeof 9月月更 strlen

Java终极学习路线-共计9大模块/6大框架/13个中间件

小明Java问道之路

Java 架构 JVM 中间件 9月月更

【JavaWeb】Servlet系列——使用纯Servlet做一个单表的CRUD操作

胖虎不秃头

Web java; 9月月更

  • 需要帮助,请添加网站小助手,进入 InfoQ 技术交流群
Google 发布 Fluid Annotation,数据标注速度提高三倍!_AI_InfoQ精选文章