企业在业务安全与数据合规过程中有哪些实践与挑战?戳此了解 了解详情
写点什么

使用 Amazon Comprehend 训练自定义文档分类器

  • 2019 年 10 月 16 日
  • 本文字数:1395 字

    阅读完需:约 5 分钟

使用 Amazon Comprehend 训练自定义文档分类器

Amazon Comprehend 让您能够大规模处理自然语言文本(更多信息请参阅我的介绍文章 Amazon Comprehend – Continuously Trained Natural Language Processing)。在 2017 年底推出并提供英语和西班牙支持后,我们增加了多项以客户为中心的功能,包括异步批处理操作语法分析、支持更多语言(法语、德语、意大利语和葡萄牙语)以及在更多区域开放。


Comprehend 采用自动机器学习 (AutoML) 技术,可让您使用已经拥有的数据创建自定义的自然语言处理 (NLP) 模型,无需深入了解机器学习。根据您的数据集和使用案例不同,它会自动选择正确的算法,调整参数,编译并测试得出的模型。


如果您已经(通过 Amazon Transcribe、论坛帖子等等)拥有一组标记文档,例如持工单、联络中心对话等,您可以将这些文档作为起点。在这种情况下,标记仅指您已经检查了每份文档,并以期望的方式添加了标签以说明其特征。每个标签至少需要 50 个文档才能使用自定义分类功能,如果有数百个甚至输给签个文档当然更好。


在此博文中,我将重点介绍自定义分类,并将演示如何对模型进行训练以区分干净的文本和包含脏话的文本。然后我将演示如何使用模型来对新文本进行分类。


分类器的使用

首先我将使用一个与以下类似的 CSV 训练文本文件(我将所有文本进行了遮盖处理;但其中确实有许多的脏话):



训练数据必须位于 S3 对象中,每行一个标签和一个文档:



然后我会导航至 Amazon Comprehend 控制台并单击 分类。我还没有任何现有的分类器,因此我会单击 Create classifier 来创建一个:



我会给我的分类器命名并选择文档语言,选择我的训练数据所在的 S3 存储桶,然后创建一个拥有该存储桶访问权限的 AWS Identity and Access Management (IAM) 角色。然后我会单击 Create classifier 继续:



训练将会立即开始:



状态将会在几分钟内变为 Trained ,现在我已经做好准备,可以创建一个分析作业来对一些文本进行分类,其中一些文本可能含有脏话:



我将此文本放入另一个 S3 存储桶,在控制台中单击 分析 ,然后单击 Create job 。然后我会为作业命名,“Analysis type”选择“Custom classification”,然后选择我刚刚创建的分类器。我还会选择输入存储桶(上述文件)以及将用于接收结果的另一个存储桶,根据新创建的分类器分类,然后单击 Create job 继续(重要安全提示:如果您使用同一个 S3 存储桶来存储源和目标,请务必通过名称来引用输入文件):



作业会立即开始,只需几分钟就会完成:



结果将存储在我在创建作业时选择的 S3 存储桶中:



每行输出都对应输入文件中的一个文档:



下面是一行的详细显示:


Json


{   "File":"profanity_test.csv",   "Line":"0",   "Classes":[      {         "Name":"PROFANITY",         "Score":1.0      },      {         "Name":"NON_PROFANITY",         "Score":0.0      }   ]}
复制代码


可以看出,新推出的分类服务十分强大,使用非常方便。我可以在分钟内得到十分有用的高质量结果,无需任何机器学习的知识。


此外,您还可以使用 Amazon Comprehend CLIAmazon Comprehend API 来训练和测试模型。


现已推出

Amazon Comprehend 分类服务现已在所有提供 Comprehend 的区域开放。


作者介绍:


!



Jeff Barr
AWS 首席布道师; 2004年开始发布博客,此后便笔耕不辍。
复制代码


原文链接:


https://amazonaws-china.com/cn/blogs/china/new-train-custom-document-classifiers-with-amazon-comprehend/


2019 年 10 月 16 日 11:16355
用户头像

发布了 1465 篇内容, 共 51.3 次阅读, 收获喜欢 57 次。

关注

评论

发布
暂无评论
发现更多内容

Java中多线程启动,为什么调用的是start方法,而不是run方法?

Java 编程 架构

4.从legacy或concurrent开始(从入口开始,然后让我们奔向未来)

全栈潇晨

React React Hooks react源码

我用 go-zero 一周实现了一个中台系统,已开源!

万俊峰Kevin

微服务 go-zero Go 语言

心理声学基础

行者AI

心理 音乐

28天写作再次开启,你准备好来挑战了吗?

TGO鲲鹏会

28天写作 热门活动

面试的季节到了,老哥确定不来复习下数据结构吗

Silently9527

面试 数据结构与算法

如何 1 天快速集成自己的“Clubhouse”?

融云 RongCloud

音视频 clubhouse 语音社交 融云

什么是阻抗?

不脱发的程序猿

阻抗 电路设计 电子元器件

2021新年最新分享:阿里Java岗5轮技术面经整理

比伯

Java 编程 架构 面试 程序人生

OAuth:每次授权暗中保护你的那个“MAN”

华为云开发者社区

大前端 协议 权限 Oauth web服务

程序员成长第九篇:真实项目中的注意事项

石云升

程序员 项目实战 2月春节不断更

LeetCode题解:63. 不同路径 II,动态规划,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

阿里云大佬爆裂推荐“redis全新手册”,内容即精华

比伯

Java redis 程序员 架构 程序人生

山东党建系统!组织部智慧管理平台搭建

源中瑞-龙先生

智慧党建 组织部 山东

话题讨论 | 今年,你回家过年了吗?

xcbeyond

话题讨论 春节 就地过年

日记 2021年2月18日(周四)

Changing Lin

2月春节不断更

华为云FusionInsight MRS在金融行业存算分离的实践

华为云开发者社区

大数据 金融 华为云 存算分离 FusionInsight MRS

话题讨论 | 如何使用“网站SEO”,让网站排在最前面?

我是哪吒

大前端 后端 话题讨论 SEO 2月春节不断更

区块链挖矿系统APP开发|区块链挖矿软件开发(现成)

v16629866266

14. Python 与数据库那点事儿,滚雪球学 Python

梦想橡皮擦

python 爬虫 2月春节不断更

进程管理:kill命令之-9与-15

程序员架构进阶

Java Linux 进程 七日更 2月春节不断更

一维数组的动态和

小马哥

算法

第 4 周作业

老元宵

ElasticSearch.04 - 基础操作

insight

elasticsearch 2月春节不断更

技术实践 | 新思路!解决线上系统异常问题

百度开发者中心

Java架构大牛之路必备“微服务架构笔记”

Java架构之路

Java 程序员 架构 面试 编程语言

哲少荐书:鞋狗

Jackey

书籍推荐

【STM32】EXTI---外部中断/事件控制器

AXYZdong

硬件 stm32 2月春节不断更

厉害了!这群95后正在用三维成像技术让科幻变成现实

华为云开发者社区

视频 华为云 三维 裸眼 光学

新闻|2021 FOSDEM为期两天的活动成功举办,一大波学习资源来袭!

PostgreSQLChina

数据库 postgresql 软件 开源社区

WAVE SUMMIT 2022 深度学习开发者峰会

WAVE SUMMIT 2022 深度学习开发者峰会

使用 Amazon Comprehend 训练自定义文档分类器_语言 & 开发_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章