写点什么

Amazon Comprehend 发布异步批处理操作

  • 2019-10-21
  • 本文字数:1864 字

    阅读完需:约 6 分钟

Amazon Comprehend 发布异步批处理操作

我的同事 Jeff Barr 最近写了一篇关于 Amazon Comprehend 的文章,这是一项用于发现文本中的见解和关系的服务,在 2017 年的 AWS re:Invent 大会上发布。如今,在反复研究客户反馈之后,我们将发布适用于 Comprehend 的全新异步批量推理功能。异步批处理操作可处理存储在 Amazon Simple Storage Service (S3) 存储桶中的文档,并可执行所有常规 Comprehend 操作,例如实体识别、关键短语提取、情绪分析和语言检测。与单文档 API 和批处理 API 相比,这些新的异步批处理 API 支持的文档要大得多,从而减少了客户截断文档以获取服务的需求。当然,所有单文档 API 和批处理同步 API 操作仍可用于提供实时结果。通过增加异步操作,开发人员可以选择最适合其应用程序的工具。让我们深入了解一下这一新型 API。

异步 API 操作

新的批处理 API 遵循与 Amazon Comprehend 的 TopicDetection API 相同的异步调用结构。在分析一系列文档时,我们首先要调用某个 Start* API,例如 StartDominantLanguageDetectionJobStartEntitiesDetectionJobStartKeyPhrasesDetectionJobStartSentimentDetectionJob


这些 API 中的每一个都采用 InputDataConfig 和 OutputDataConfig,用以指定传入数据的格式和位置,以及相关结果应存储在 S3 的哪个位置。InputDataConfig 用于指定应将输入数据视为每个文件一个文档还是每行一个文档。


另外,我们还可以给任务命名并添加一个用于同步用途的唯一请求标识符。如果我们不提供这些信息,Comprehend 服务将自动生成它们。


在撰写本文时,对于实体和关键短语检测、语言检测及情绪检测,异步操作支持的最大单个文档大小分别为 100KB、1MB 和 5KB。批处理中所有文件的总大小必须小于 5GB,而且对于每个批次,我们提交的单独文件数不能超过 100 万个。


现在我们已经了解了 API 的功能,接下来我们来看看更新后的控制台并启动任务!

Amazon Comprehend 分析控制台

首先,我将导航到 AWS 管理控制台并打开 Amazon Comprehend。接下来,我将选择新的分析控制台。



在此,我可以单击控制台右上角的“创建”按钮来创建一个新的分析任务。我将创建一个实体检测任务并选择英语作为我的文档语言。然后,我会指示控制台选择一些示例数据。



现在,我将配置输出数据的位置,并确保所选服务角色有权访问该 S3 存储桶。然后,我将启动任务!



在如下页面上,我可以看到在控制台中启动的操作,并可等到操作完成后再查看详细结果。



在任务页面上,我可以看到任务的状态和输出位置。如果我从 S3 位置下载结果,则可以查看示例文本中检测到的实体。



在这里,我已截断结果,但大多数情况下它们如下所示:


Json


{  "Entities": [    {      "BeginOffset": 875,      "EndOffset": 899,      "Score": 0.9936646223068237,      "Text": "University of California",      "Type": "ORGANIZATION"    },    {      "BeginOffset": 903,      "EndOffset": 911,      "Score": 0.9519965648651123,      "Text": "Berkeley",      "Type": "LOCATION"    },    {      "BeginOffset": 974,      "EndOffset": 992,      "Score": 0.9981470108032227,      "Text": "Christopher Monroe",      "Type": "PERSON"    },    {      "BeginOffset": 997,      "EndOffset": 1010,      "Score": 0.9992995262145996,      "Text": "Mikhail Lukin",      "Type": "PERSON"    },    {      "BeginOffset": 1095,      "EndOffset": 1099,      "Score": 0.9990954399108887,      "Text": "2017",      "Type": "DATE"    }  ],  "File": "Sample.txt",  "Line": 8}
复制代码


很酷吧!我们可以通过类似的步骤进行情感检测或关键短语检测。由于我们可以在一个批次中提交多达 5GB 的数据,因此客户将花费较少的时间来转换和截断文档。


我个人推荐使用 AWS Step Functions 之类的工具,以编程方式检查任务状态。设置和构建编程分析管道非常简单。



正如我们在 Roy Hasson 撰写的这篇博客文章中提到的,您还可以使用 AWS Glue 将 Comprehend 作为您常规 ETL 操作的一部分加以调用。

附加信息

您可以在该文档中找到有关这些新 API 的详细信息,并了解有关限制和最佳实践的更多信息。


如前所述,同步批处理 API 仍然可用,并且适合用于较小的文档集和较小的文档。


和往常一样,欢迎随时在这里或在 Twitter 上分享您的反馈。


作者介绍:


Randall Hunt


AWS 全球高级布道师。此前供职于 NASA, SpaceX 及 MongoDB。


本文转载自 AWS 技术博客。


原文链接:


https://amazonaws-china.com/cn/blogs/china/amazon-comprehend-launches-asynchronous-batch-operations/


2019-10-21 08:001163

评论

发布
暂无评论
发现更多内容

电力行业首个自主可控的大模型发布了!百度飞桨、文心大模型提供支持

飞桨PaddlePaddle

飞桨 大模型 文心大模型

3D孪生场景搭建:模拟仿真

3D建模设计

数字孪生 3D应用场景 3D编辑器

3D孪生场景搭建:3D漫游

3D建模设计

数字孪生 3D编辑器 3D漫游

软件测试/测试开发丨接口测试学习笔记-常见的接口协议

测试人

软件测试 HTTP 接口测试 接口协议

解读亚马逊云服务器 EC2 预留实例与按需实例的区别,及其在成本节约的优势

亚马逊云科技 (Amazon Web Services)

sdk 云服务器 Amazon EC2

苹果Mac视频编辑软件 Final Cut Pro

展初云

Mac软件 视频编辑工具 FCPX软件 fcpx

多数据源管理:掌握@DS注解的威力 | 京东云技术团队

京东科技开发者

mybatis Mybatis Plus 企业号10月PK榜 DS注解

MySQL innoDB 间隙锁产生的死锁问题 | 京东云技术团队

京东科技开发者

MySQL innodb 死锁 Mysql死锁 企业号10月PK榜

火山引擎DataTester智能发布:助力产品降低功能迭代风险

字节跳动数据平台

大数据 A/B 测试 对比实验 数字化增长 企业号10月PK榜

小白修图必备Topaz Photo AI for Mac图像智能处理工具

展初云

图像处理 Mac 软件 修图软件

开源即时通讯IM框架 MobileIMSDK v6.4 发布

JackJiang

网络编程 即时通讯 IM

透明度和透明贴图制作玻璃水杯

3D建模设计

3D模型 材质修改 纹理贴图

要体验 AI 编程助手吗?

亚马逊云科技 (Amazon Web Services)

亚马逊云科技 AIGC

3D孪生场景搭建:参数化模型

3D建模设计

模型 数字孪生 参数化模型

DeFi 的兴起:与加密货币交易所应用程序开发的协同作用

区块链软件开发推广运营

交易所开发 dapp开发 区块链开发 链游开发 NFT开发

从 Greenplum 到 YMatrix,某头部动力电池厂商核心业务数据的迁移实践

YMatrix 超融合数据库

greenplum 迁移数据 超融合数据库 YMatrix 电池厂商

零售业:别让数据安全成为业务的绊脚石!

极盾科技

数据安全 零售行业

OWASP Top 10漏洞解析(3)- A3:Injection 注入攻击

云计算 软件开发 华为云

【AI模型】首个Joy 模型诞生!!!全民生成Joy大片 | 京东云技术团队

京东科技开发者

AI模型 企业号10月PK榜 京东joy

像win一样使用Mac的鼠标右键:MouseBoost Pro

展初云

Mac软件 鼠标扩展

对于数字化转型,数据代表了什么?

IT民工大叔

数据 数字化转型 数字化

实现动态表单的一种思路 | 京东云技术团队

京东科技开发者

元数据 动态表单 前后端交互 企业号10月PK榜

EMQ 云边协同的 IIoT 解决方案架构,亮相 2023 工博会

新消费日报

火山引擎DataLeap一站式数据治理解决方案及平台架构

字节跳动数据平台

大数据 数据中台 数据安全 数据研发 企业号10月PK榜

3D孪生场景搭建:模型区域摆放

3D建模设计

数字孪生 3D场景编辑器

位移贴图和法线贴图的区别

3D建模设计

材质修改 纹理贴图

3D孪生场景SDK:Viwer 孪生世界

3D建模设计

数字孪生

Embedding技术与应用 (2) :神经网络的发展及现代Embedding方法简介

Baihai IDP

人工智能 神经网络 AI 嵌入 白海科技

递归解析Json,实现生成可视化Tree+快速获取JsonPath | 京东云技术团队

京东科技开发者

json tree 企业号10月PK榜 JsonPath

Amazon Comprehend 发布异步批处理操作_语言 & 开发_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章