东亚银行、岚图汽车带你解锁 AIGC 时代的数字化人才培养各赛道新模式! 了解详情
写点什么

Amazon SageMaker Ground Truth 不断简化标记工作流

  • 2019-10-01
  • 本文字数:2439 字

    阅读完需:约 8 分钟

Amazon SageMaker Ground Truth 不断简化标记工作流

在 AWS re:Invent 2018 上推出的 Amazon SageMaker Ground Truth 是 Amazon SageMaker 中的一项功能,可方便客户高效准确地为机器学习训练系统所需的数据集添加标签。

Amazon SageMaker Ground Truth 快速回顾

Amazon SageMaker Ground Truth 可帮助您快速构建高度准确的机器学习训练数据集。利用 SageMaker Ground Truth,可以方便地找到公开和非公开的人工标记者,并为他们提供用于常见加标签任务的内置工作流和界面。此外,SageMaker Ground Truth 还可以使用自动加标签功能将加标签的成本降低多达 70%,其中自动加标签的工作原理是利用人工加标签的数据来训练 Ground Truth,从而使这项服务学会独立为数据加标签。


Amazon SageMaker Ground Truth 可帮助您为下列目的构建数据集:


  • 文本分类。

  • 图像分类,即将图像分类为特定的类别。

  • 对象检测,即使用边界框找到图像中的对象。

  • 语义分割,即以像素级的精确度找到图像中的对象。

  • 自定义由用户定义的任务,允许客户对任何内容进行标注。

  • 您可以选择由标记者团队完成这项任务,并将加标签的请求直接发送给他们。如果您需要扩大规模,也可以直接在 Amazon SageMaker Ground Truth 控制台中提供相关选项,以便与组织外部的标记者合作。通过集成 Amazon Mechanical Turk,可为您效劳的公共劳动力将包含超过 500,000 名标记者。如果您的数据需要保密或特殊技能,您也可以选择由 Amazon 预先筛选并在 AWS Marketplace 上列出的专业标记公司。

推出新功能

自该服务推出以来,我们收集了大量来自 T-Mobie、Pinterest、Chang healthcare、GumGum、Automagi 等公司的客户反馈(目前还在继续收集!)。我们在此基础上定义了服务下一次迭代的雏形,而就在几个星期之前,我们刚刚发布了两个呼声很高的功能:


  • 多类别边界框(允许您同时为图像中的多个类别加标签)。

  • 三个适用于自定义工作流的新 UI 模板,共有十五种不同的模板,可帮助您快速构建图像、文本和音频数据集的标注工作流。


今天,我们很高兴地再宣布一系列新功能。这些功能可以让具成本效益的加标签工作流能够更加简便地构建和运行。让我们来详细了解这些新功能。

作业链

客户通常希望能在后续的加标签作业中利用先前加标签作业的成果。从基本上来说,他们希望利用所得的加标签数据集(以及所得的机器学习模型 [如果启用了数据自动加标签]),将加标签作业链在一起。例如,他们可能会在初始作业中识别图像中是否存在人类,然后在运行后续作业时,希望在人类周围绘制边界框。


如果使用主动学习,客户可能还希望使用生成的机器学习模型,以便在后续作业中引导实现自动为数据加标签。设置过程非常简单:只需一次点击即可将加标签作业链在一起!

作业跟踪

客户希望能够查看其加标签作业进度的状态。现在,我们已经能够近乎实时地提供加标签作业状态。


长期作业

许多客户选择由专家来充当标记者角色,并定期执行加标签作业。例如,医疗保健公司经常选择有临床医生充当他们的专业加标签人员,而他们只能在不工作时偶尔执行加标签作业。在这些情况下,加标签作业会需要运行更长时间,有时长达数周或数月。我们现在支持更长的任务超时窗口,其中每批标记作业可以运行 10 天,这意味着加标签作业可以延长到数月。

动态自定义工作流

在设置自定义工作流时,除源数据外,客户还希望插入或使用其他上下文。例如,在发送给标记者的任务中,客户可能希望在每个图像上方显示具体天气状况;这些信息可以帮助标记者更好地完成手头的任务。具体而言,客户可以利用此功能将先前加标签作业的成果或其他自定义内容注入自定义工作流。使用包含源数据和附加上下文的增强清单文件将此信息传递到预处理 Lambda 函数。客户还可以使用其他上下文来动态调整工作流。

新的服务提供商和新语言

我们在 AWS Marketplace 上列出了两个新的数据标记服务提供商:Vivetic 和 SmartOne。在这两家供应商加入之后,Amazon SageMaker Ground Truth 将增加对法语、德语和西班牙语数据标记的支持。


区域扩展

除美国东部(弗吉尼亚州)、美国中部(俄亥俄州)、美国西部(俄勒冈州)、欧洲(爱尔兰)和亚太地区(东京)外,亚太地区(悉尼)现在也可以使用 Amazon SageMaker Ground Truth。

客户案例研究:ZipRecruiter

ZipRecruiter 帮助求职者找到好工作,帮助雇主成立好公司。自 Amazon SageMaker 推出以来,他们一直在使用这项服务。ZipRecruiter 首席技术官 Craig Ogg 表示:“ZipRecruiter 的 AI 驱动算法可以了解每个雇主所需要的人才,并提供一组相关度和个性化程度较高且经过挑选的候选人。就市场中的另一方面而言,公司采用的技术还要能够将求职者与最相关的工作相匹配。为了有效地完成所有这些工作,我们需要一个机器学习模型,以便从上传的简历中自动提取相关数据。”


当然,构建数据集是机器学习过程的关键部分,通常会耗费大量资金而且非常耗时。为了解决这两个问题,ZipRecruiter 选择了 Ground Truth 和我们的一个标记合作伙伴 iMerit。


正如 Craig 所说的那样:“Amazon SageMaker Ground Truth 将大大帮助我们减少创建训练数据集所需的时间和精力。由于数据的保密性,我们最初考虑使用我们自己的一个团队,但这需要占用他们完成常规任务的时间,并且需要数月才能收集我们需要的数据。在使用 Amazon SageMaker Ground Truth 的同时,我们聘用了 Amazon 预先筛选的专业标记公司 iMerit 来协助完成自定义的标注项目。在他们的帮助下,我们收集数千个标注所需的时间与使用我们自己的团队相比只是九牛一毛。”

开始使用

我希望这篇文章能够提供丰富的信息,并且希望这些新功能可以帮助您更快地完成构建工作。请试用 Amazon SageMaker Ground Truth,让我们知道您的想法,并帮助我们构建这项出色服务的下一次迭代!


作者介绍:


Julien Simon


作为欧洲、中东和非洲 (EMEA) 地区人工智能和机器学习的宣传官,Julien 致力于帮助开发人员和企业将他们的想法变成现实。


本文转载自 AWS 技术博客。


原文链接:


https://amazonaws-china.com/cn/blogs/china/amazon-sagemaker-ground-truth-keeps-simplifying-labeling-workflows/


2019-10-01 08:00645
用户头像

发布了 1834 篇内容, 共 91.4 次阅读, 收获喜欢 73 次。

关注

评论

发布
暂无评论
发现更多内容

Alibaba官方上线!Java并发编程全彩图册(终极版)GitHub已置顶

做梦都在改BUG

Java 并发编程 多线程 高并发

扫盲篇:Java中为啥一个 main 方法就能启动项目?

Java你猿哥

Java JVM ssm Java工程师

一文告诉你如何一键复现“TSBS 时序数据库性能基准测试报告”测试结果

TDengine

tdengine 性能测试 时序数据库

警惕看不见的重试机制:为什么使用RPC必须考虑幂等性

做梦都在改BUG

Nautilus Chain 首个生态基础设施 Poseiswap,公布空投规则

威廉META

互联网工程师1480道Java面试题及答案整理( 2023年 整理版)

Java你猿哥

Java 面试 面经 春招 Java八股文

面试必问:JVM 如何确定死亡对象?

做梦都在改BUG

Java 面试 JVM

基础篇丨链路追踪(Tracing)其实很简单

阿里巴巴云原生

阿里云 云原生 Tracing

DaVinci Resolve Studio 18(达芬奇调色剪辑)中文版

Rose

达芬奇18破解版

GitHub上架即巅峰!《Spring Cloud微服务架构实战》标星已超30k

做梦都在改BUG

Java 架构 微服务 Spring Cloud

最全金融数据安全政策汇编,你应该需要它!( 附下载 )

极盾科技

数据安全

云原生容器高可用运维能力应用

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 3 月 PK 榜

开源即巅峰!《Java程序性能优化实战》GitHub三小时标星已超34k

做梦都在改BUG

Java 性能优化 性能调优

官方文档 | 【JVM调优体系】「GC底层调优实战」XPocket为终结性能问题而生—开发指南

洛神灬殇

Java JVM 3月日更 XPocket 技术 优化体系

IM跨平台技术学习(七):得物基于Electron开发客服IM桌面端的技术实践

JackJiang

即时通讯 即时通讯IM

Nautilus Chain 首个生态基础设施 Poseiswap,公布空投规则

鳄鱼视界

MobTech 秒验|防控羊毛党

MobTech袤博科技

龙蜥白皮书精选:面向异构计算的加速器 SDK

OpenAnolis小助手

开源 sdk 异构计算 加速器 龙蜥白皮书

灵魂拷问:你写的SQL一般有几个JOIN ?​

Java你猿哥

Java sql 后端 ssm join

Github上获赞59.8K的面试神技—1658页《Java面试突击核心讲》

Java你猿哥

Java 架构 面试 面经 春招

一看就懂,一学就会的Raft解析

爱德华

raft PAXOS 共识算法 深入理解分布式共识算法

阿里P7架构师的独家分享——SpringCloud 微服务实战笔记

Java你猿哥

Java 架构 微服务 Spring Boot 面经

如何使用责任链默认优雅地进行参数校验?

做梦都在改BUG

MobTech MobLink|场景分享的原理

MobTech袤博科技

连接 AI,NebulaGraph Python ORM 项目 Carina 简化 Web 开发

NebulaGraph

Python ORM 图数据库

Linux 的 TCP 连接数量最大不能超过 65535?

Java你猿哥

Java Linux 后端 ssm

mac电脑能恢复安卓手机丢失的数据吗?

Rose

mac电脑 安卓数据恢复

夜莺n9e监控配置支持电话短信报警

外滩运维专家

夜莺监控 电话报警 短信报警 夜莺监控电话

在GitHub首页3分钟被下架!爱奇艺《高并发网关设计》笔记被盗?

做梦都在改BUG

Java 负载均衡 高并发 网关设计

专业的RAW图片处理:DxO PhotoLab 6 中文直装版

真大的脸盆

Mac Mac 软件 raw raw图片处理软件 Raw图像处理软件

解密COUNT(*)与COUNT(1):SQL查询你选哪个更高效?

Java你猿哥

Java sql 后端 ssm Java工程师

Amazon SageMaker Ground Truth 不断简化标记工作流_语言 & 开发_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章