写点什么

Amazon Comprehend 发布异步批处理操作

  • 2019-10-21
  • 本文字数:1864 字

    阅读完需:约 6 分钟

Amazon Comprehend 发布异步批处理操作

我的同事 Jeff Barr 最近写了一篇关于 Amazon Comprehend 的文章,这是一项用于发现文本中的见解和关系的服务,在 2017 年的 AWS re:Invent 大会上发布。如今,在反复研究客户反馈之后,我们将发布适用于 Comprehend 的全新异步批量推理功能。异步批处理操作可处理存储在 Amazon Simple Storage Service (S3) 存储桶中的文档,并可执行所有常规 Comprehend 操作,例如实体识别、关键短语提取、情绪分析和语言检测。与单文档 API 和批处理 API 相比,这些新的异步批处理 API 支持的文档要大得多,从而减少了客户截断文档以获取服务的需求。当然,所有单文档 API 和批处理同步 API 操作仍可用于提供实时结果。通过增加异步操作,开发人员可以选择最适合其应用程序的工具。让我们深入了解一下这一新型 API。

异步 API 操作

新的批处理 API 遵循与 Amazon Comprehend 的 TopicDetection API 相同的异步调用结构。在分析一系列文档时,我们首先要调用某个 Start* API,例如 StartDominantLanguageDetectionJobStartEntitiesDetectionJobStartKeyPhrasesDetectionJobStartSentimentDetectionJob


这些 API 中的每一个都采用 InputDataConfig 和 OutputDataConfig,用以指定传入数据的格式和位置,以及相关结果应存储在 S3 的哪个位置。InputDataConfig 用于指定应将输入数据视为每个文件一个文档还是每行一个文档。


另外,我们还可以给任务命名并添加一个用于同步用途的唯一请求标识符。如果我们不提供这些信息,Comprehend 服务将自动生成它们。


在撰写本文时,对于实体和关键短语检测、语言检测及情绪检测,异步操作支持的最大单个文档大小分别为 100KB、1MB 和 5KB。批处理中所有文件的总大小必须小于 5GB,而且对于每个批次,我们提交的单独文件数不能超过 100 万个。


现在我们已经了解了 API 的功能,接下来我们来看看更新后的控制台并启动任务!

Amazon Comprehend 分析控制台

首先,我将导航到 AWS 管理控制台并打开 Amazon Comprehend。接下来,我将选择新的分析控制台。



在此,我可以单击控制台右上角的“创建”按钮来创建一个新的分析任务。我将创建一个实体检测任务并选择英语作为我的文档语言。然后,我会指示控制台选择一些示例数据。



现在,我将配置输出数据的位置,并确保所选服务角色有权访问该 S3 存储桶。然后,我将启动任务!



在如下页面上,我可以看到在控制台中启动的操作,并可等到操作完成后再查看详细结果。



在任务页面上,我可以看到任务的状态和输出位置。如果我从 S3 位置下载结果,则可以查看示例文本中检测到的实体。



在这里,我已截断结果,但大多数情况下它们如下所示:


Json


{  "Entities": [    {      "BeginOffset": 875,      "EndOffset": 899,      "Score": 0.9936646223068237,      "Text": "University of California",      "Type": "ORGANIZATION"    },    {      "BeginOffset": 903,      "EndOffset": 911,      "Score": 0.9519965648651123,      "Text": "Berkeley",      "Type": "LOCATION"    },    {      "BeginOffset": 974,      "EndOffset": 992,      "Score": 0.9981470108032227,      "Text": "Christopher Monroe",      "Type": "PERSON"    },    {      "BeginOffset": 997,      "EndOffset": 1010,      "Score": 0.9992995262145996,      "Text": "Mikhail Lukin",      "Type": "PERSON"    },    {      "BeginOffset": 1095,      "EndOffset": 1099,      "Score": 0.9990954399108887,      "Text": "2017",      "Type": "DATE"    }  ],  "File": "Sample.txt",  "Line": 8}
复制代码


很酷吧!我们可以通过类似的步骤进行情感检测或关键短语检测。由于我们可以在一个批次中提交多达 5GB 的数据,因此客户将花费较少的时间来转换和截断文档。


我个人推荐使用 AWS Step Functions 之类的工具,以编程方式检查任务状态。设置和构建编程分析管道非常简单。



正如我们在 Roy Hasson 撰写的这篇博客文章中提到的,您还可以使用 AWS Glue 将 Comprehend 作为您常规 ETL 操作的一部分加以调用。

附加信息

您可以在该文档中找到有关这些新 API 的详细信息,并了解有关限制和最佳实践的更多信息。


如前所述,同步批处理 API 仍然可用,并且适合用于较小的文档集和较小的文档。


和往常一样,欢迎随时在这里或在 Twitter 上分享您的反馈。


作者介绍:


Randall Hunt


AWS 全球高级布道师。此前供职于 NASA, SpaceX 及 MongoDB。


本文转载自 AWS 技术博客。


原文链接:


https://amazonaws-china.com/cn/blogs/china/amazon-comprehend-launches-asynchronous-batch-operations/


2019-10-21 08:001167

评论

发布
暂无评论
发现更多内容

模块五作业

危险游戏

架构实战营

dart系列之:还在为编码解码而烦恼吗?用dart试试

程序那些事

flutter dart flutter 面向切面 aop 程序那些事 12月日更

Cordova插件中JavaScript代码与Java的交互细节介绍

汪子熙

Java JavaScript 移动应用 28天写作 12月日更

等保工作中常见导致测评结论为差的高风险项

行云管家

网络安全 等级保护 等保测评 等保结论

使用工具Source Monitor测量您Java代码的环复杂度

汪子熙

Java 软件工程 28天写作 12月日更 代码复杂度

web技术分享| AudioContext 实现音频可视化

anyRTC开发者

Web 音视频 WebRTC 音频可视化 AudioContext

带你了解Typescript的14个基础语法

华为云开发者联盟

typescript 数组 开发 js 语法

初识JVM的内存结构

Ayue、

技术专题合集

恒源云(GPUSHARE)_CIFAR-10数据集实战:构建ResNet18神经网络

恒源云

深度学习 算法

PackML从会到不会——命令标签(4)

陈的错题集

标准化 PackML

短视频平台的风控系统设计

Bill Zhang

Camtasia视频剪辑功能详解

淋雨

Camtasia

一场关于元宇宙公司之死的剧本杀

白洞计划

Selenium之css怎么实现元素定位?

六十七点五

大前端 软件测试 自动化测试 接口测试 selenium

当我们谈论“远程开发”时,我们在谈论什么

Draven Gorden

云原生 开发者工具 开发工具 远程协作 开发环境

恒源云(GPUSHARE)_分享一个技巧!CV训练时容易忽视的数据标签问题

恒源云

深度学习 算法 CV

12 月亚马逊云科技培训与认证课程,精彩不容错过!

亚马逊云科技 (Amazon Web Services)

架构师 培训 认证

分享一个从源码快速构建应用的小工具

Draven Gorden

开发者工具 开发工具 开源项目

常用项目部署方案和区别

进击的梦清

DevOps 运维 项目 部署与维护

周边生态|RoP 重磅发布 0.2.0 版本: 架构全新升级,消息准确性达 100%

Apache Pulsar

Java 开源 架构 云原生 Apache Pulsar

如何在Flutter应用程序中创建不同的渐变 【Flutter专题14】

坚果

flutter 28天写作 12月日更

☕【并发技术系列】「多线程并发编程」技术体系和并发模型的基础探究(夯实基础)

码界西柚

Java 并发编程 多线程 多进程 12月日更

云智慧正式开源运维管理平台(OMP),加速AIOps社区生态建设

云智慧AIOps社区

运维 运维监控 开源软件 运维体系 运维系统

vCenter管理软件用什么牌子好?有哪些用处?

行云管家

虚拟化 vcenter

我不用“996”,更不用“007”,可我赚的就是比你多

六十七点五

软件测试 自动化测试 接口测试 测试工程师 功能测试

小程序与H5适合的场景应用都有哪些

Speedoooo

ios开发 APP开发 容器安全 Andriod开发 容器应用

基于星环科技大数据平台 辽宁城市建设职业技术学院打造智慧校园

星环科技

大数据

MySQL探秘(二):SQL语句执行过程详解

程序员历小冰

MySQL 28天写作 12月日更

Linux一学就会之Centos8用户管理

学神来啦

Linux centos 运维 linux云计算

Sinfonia: a new paradigm for building scalable distributed systems--翻译理解【1】

Krysta

分布式 transaction Sinfonia DSM 两阶段提交改进

Java和ABAP中的几种引用类型的分析和比较

汪子熙

Java 引用 28天写作 abap 12月日更

Amazon Comprehend 发布异步批处理操作_语言 & 开发_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章