阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

使用 Amazon Comprehend 训练自定义文档分类器

  • 2019-10-16
  • 本文字数:1395 字

    阅读完需:约 5 分钟

使用 Amazon Comprehend 训练自定义文档分类器

Amazon Comprehend 让您能够大规模处理自然语言文本(更多信息请参阅我的介绍文章 Amazon Comprehend – Continuously Trained Natural Language Processing)。在 2017 年底推出并提供英语和西班牙支持后,我们增加了多项以客户为中心的功能,包括异步批处理操作语法分析、支持更多语言(法语、德语、意大利语和葡萄牙语)以及在更多区域开放。


Comprehend 采用自动机器学习 (AutoML) 技术,可让您使用已经拥有的数据创建自定义的自然语言处理 (NLP) 模型,无需深入了解机器学习。根据您的数据集和使用案例不同,它会自动选择正确的算法,调整参数,编译并测试得出的模型。


如果您已经(通过 Amazon Transcribe、论坛帖子等等)拥有一组标记文档,例如持工单、联络中心对话等,您可以将这些文档作为起点。在这种情况下,标记仅指您已经检查了每份文档,并以期望的方式添加了标签以说明其特征。每个标签至少需要 50 个文档才能使用自定义分类功能,如果有数百个甚至输给签个文档当然更好。


在此博文中,我将重点介绍自定义分类,并将演示如何对模型进行训练以区分干净的文本和包含脏话的文本。然后我将演示如何使用模型来对新文本进行分类。

分类器的使用

首先我将使用一个与以下类似的 CSV 训练文本文件(我将所有文本进行了遮盖处理;但其中确实有许多的脏话):



训练数据必须位于 S3 对象中,每行一个标签和一个文档:



然后我会导航至 Amazon Comprehend 控制台并单击 分类。我还没有任何现有的分类器,因此我会单击 Create classifier 来创建一个:



我会给我的分类器命名并选择文档语言,选择我的训练数据所在的 S3 存储桶,然后创建一个拥有该存储桶访问权限的 AWS Identity and Access Management (IAM) 角色。然后我会单击 Create classifier 继续:



训练将会立即开始:



状态将会在几分钟内变为 Trained ,现在我已经做好准备,可以创建一个分析作业来对一些文本进行分类,其中一些文本可能含有脏话:



我将此文本放入另一个 S3 存储桶,在控制台中单击 分析 ,然后单击 Create job 。然后我会为作业命名,“Analysis type”选择“Custom classification”,然后选择我刚刚创建的分类器。我还会选择输入存储桶(上述文件)以及将用于接收结果的另一个存储桶,根据新创建的分类器分类,然后单击 Create job 继续(重要安全提示:如果您使用同一个 S3 存储桶来存储源和目标,请务必通过名称来引用输入文件):



作业会立即开始,只需几分钟就会完成:



结果将存储在我在创建作业时选择的 S3 存储桶中:



每行输出都对应输入文件中的一个文档:



下面是一行的详细显示:


Json


{   "File":"profanity_test.csv",   "Line":"0",   "Classes":[      {         "Name":"PROFANITY",         "Score":1.0      },      {         "Name":"NON_PROFANITY",         "Score":0.0      }   ]}
复制代码


可以看出,新推出的分类服务十分强大,使用非常方便。我可以在分钟内得到十分有用的高质量结果,无需任何机器学习的知识。


此外,您还可以使用 Amazon Comprehend CLIAmazon Comprehend API 来训练和测试模型。

现已推出

Amazon Comprehend 分类服务现已在所有提供 Comprehend 的区域开放。


作者介绍:


!



Jeff Barr
AWS 首席布道师; 2004年开始发布博客,此后便笔耕不辍。
复制代码


原文链接:


https://amazonaws-china.com/cn/blogs/china/new-train-custom-document-classifiers-with-amazon-comprehend/


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-10-16 11:16595
用户头像

发布了 1835 篇内容, 共 92.1 次阅读, 收获喜欢 73 次。

关注

评论

发布
暂无评论
发现更多内容

Debian11系统编译安装Apache教程。

百度搜索:蓝易云

Apache Linux 运维 云服务器 Debian

百度 APP iOS 端包体积 50M 优化实践 (四) 代码优化

百度Geek说

ios 代码优化 企业号 7 月 PK 榜

AlienSwap 首期 Launchpad — 偶像女团 NFT+RWA 的创新探索

EOSdreamer111

人工智能LLM模型:奖励模型的训练、PPO 强化学习的训练、RLHF | 社区征文

汀丶人工智能

人工智能 强化学习 RLHF ppo算法 年中技术盘点

云原生网关如何实现安全防护能力

阿里巴巴云原生

阿里云 云原生 网关

直播软件源码开发搭建提高安全性方案——山东布谷科技创作

山东布谷科技

源码 软件 软件开发 直播 源码搭建

2023-07-17:给定一个数组arr,长度为n, 再给定一个数字k,表示一定要将arr划分成k个集合, 每个数字只能进一个集合。 返回每个集合内部的平均值都累加起来最小的值。 平均值向下取整。 1

福大大架构师每日一题

福大大架构师每日一题

大语言模型的预训练[1]:基本概念原理、神经网络的语言模型、Transformer模型原理详解、Bert模型原理介绍| 社区征文

汀丶人工智能

神经网络 Transformer NLP 大模型 BERT 年中技术盘点

Debian11系统编译安装phpMyAdmin教程。

百度搜索:蓝易云

云计算 Linux 运维 Debian phpMyAdmin

Debian11系统编译安装Docker教程。

百度搜索:蓝易云

Docker 云计算 Linux 运维 Debian

再获肯定!柏睿数据通过国家级专精特新“小巨人”企业复核

新消费日报

QCN9274+QCN9074 chip: efficient and stable Wi-Fi 6 solution

wifi6-yiyi

wifi6 WiFi7

TDengine 的查询性能与老牌时序数据库相比如何?来看看

爱倒腾的程序员

数据库

简易注册中心监控NAS断电断网

WizInfo

Python

如何使用 Amazon Systems Manager 集中管理 Amazon IoT Greengrass 设备

亚马逊云科技 (Amazon Web Services)

Amazon

C语言实现解一元二次方程

codists

直播解锁 Serverless 新进展,与 AIGC 结合有什么搞头?

阿里巴巴云原生

阿里云 Serverless 云原生 AIGC

3D云渲染的优点和缺点是什么?

Finovy Cloud

ChatGPT助力DevOps的优势与局限

互联网工科生

DevOps 自动化运维 ChatGPT

抓住风向“猪”持续飞,还是维持在风向的高度上?

Bonaparte

产品 产品经理 产品需求 产品培训

使用 JavaScript 脚本来进行复杂的查询改写

极限实验室

Java JavaScript

计算机视觉和滤帧技术

鲸品堂

计算机视觉 图像 企业号 7 月 PK 榜

直播回顾|用户增长之路,如何兼具体验和点击率?

HMS Core

HMS Core

香港成新加密中心,JPEX生态平台通证JPC获益颇多

EOSdreamer111

Debian11系统编译安装Pure-Ftpd教程。

百度搜索:蓝易云

云计算 Linux 运维 Debian Pure-FTPd

自动化接口回归测试神器 AREX 使用初体验

AREX 中文社区

自动化测试 AWS 流量回放

代码随想录Day20 - 二叉树(六)

jjn0703

Debian11系统编译安装Tomcat教程。

百度搜索:蓝易云

云计算 tomcat Linux 运维 Debian

AlienSwap 首期 Launchpad — 偶像女团 NFT+RWA 的创新探索

股市老人

香港成新加密中心,JPEX生态平台通证JPC获益颇多

股市老人

华为云CodeArts Check代码检查新手操作指南

华为云PaaS服务小智

云计算 代码规范 华为云 代码检查

使用 Amazon Comprehend 训练自定义文档分类器_语言 & 开发_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章