11 月 19 - 20 日 Apache Pulsar 社区年度盛会来啦,立即报名! 了解详情
写点什么

Amazon 进军企业内容管理领域,宣布正式发布 Textract

  • 2019-06-26
  • 本文字数:1163 字

    阅读完需:约 4 分钟

Amazon 进军企业内容管理领域,宣布正式发布 Textract

在最近的一则新闻中,Amazon 宣布正式发布Amazon Textract,这是一种完全托管的、基于机器学习的服务,它可以从文本和结构化文档数据中提取内容。使用 Amazon Textract,客户能以自动化的方式处理文档工作流、索引和目录等重要信息,以便在下游应用程序中使用这些信息。该服务能够在几小时内处理完数百万个文档页面。


Amazon 正寻求将智能文档提取业务推向更大众的市场,以获取更丰富的商业成果。Amazon 主管机器学习的副总裁Swami Sivasubramanian解释:


Amazon Textract 的强大之处在于,它可以从几乎任何文档中精确地提取文本和结构化数据,而不需要任何机器学习经验。除了与其他 AWS 服务的集成之外,围绕 Amazon Textract 进行开发的多方合作社区,能使客户从他们的文件集合中获得更多的实际意义、更高效的操作、更安全合规、更多自动化数据输入和更快速的商业决策。


Amazon Textract 在识别关键字段或内容方面,超越了传统的光学字符识别(OCR)技术。而与之不同的是,可以使用 Textract API 来提取 PDF、图像、文本和表格等多种文件格式,然后再传递给Amazon ComprehendAmazon Comprehend MedicalAmazon Translate,以更智能的方式提取内容。


从 Textract 提取的数据采用 JSON 格式,包括诸如页码、节、标签和数据类型等元数据。之后,内容和元数据都可以加载到数据库和数据分析服务中,包括 Amazon Elasticsearch ServiceAmazon DynamoDBAmazon Athena,供会计、审计和合规性审核等领域的其他应用程序使用。


为了衡量数据提取过程的准确性,Textract 为它识别出来的每个数据属性返回一个以百分比表示的置信值。这让开发人员可以为不准确之处做出标记,并将此信息传递给他人执行进一步验证。此外,还提供了边界框坐标定位,以确定数据具体是从何处提取的。


Amazon 已经拥有一些使用 Textract 服务的客户,包括普华永道(PwC)、Healthfirst、Informed Inc、UiPath 和《环球邮报》等公司。《环球邮报》利用 Textract 提高了其记者的工作效率,并从他们此前并未得到充分利用的庞大数据集中,发挥了更大优势。《环球邮报》数字和数据科学的董事总经理 Michael O’Neill 解释:


作为一家新闻媒体公司,我们依赖于大量 PDF 文件或来源于扫描的文件,比如 FOI(信息自由请求),这些文件的重要信息包含在我们以前无法访问的表格中。这些文件没有得到充分利用,因为记者无法轻松访问这些信息,甚至不知道它们的存在。通过使用 Amazon Textract,我们能够从 PDF 格式的表格中提取信息,并轻松地将数据输出到 CSV 中,这样记者就可以对这些文档进行搜索查询,从而轻松便捷地访问这些文档。这使我们的记者获取信息的效率提高了十倍。


有关Amazon Textract 的更多信息,请参阅其产品附带文档。


原文链接:


Amazon Enters Enterprise Content Management Space, Announces General Availability of Textract


2019-06-26 08:004340
用户头像

发布了 63 篇内容, 共 39.2 次阅读, 收获喜欢 118 次。

关注

评论

发布
暂无评论
发现更多内容

悲观锁与乐观锁的实现(详情图解)

Java架构师迁哥

万字精华:好好巩固你的Nginx知识体系

学Java关注我

Java 编程 架构 程序人生 计算机

合约跟单系统搭建,合约一键跟单app

暴涨暴跌的牛市,普通人怎么和平发育?

CECBC

区块链

2021年处置非法集资部际联席会议:密切关注打着区块链、虚拟货币等旗号的新型风险

CECBC

一周信创舆情观察(4.12~4.18)

统小信uos

架构实战营模块二作业

刁寿钧

架构实战营

破解class文件的第一步:深入理解JAVA Class文件

华为云开发者联盟

Java JVM 索引 class文件

使用CrossOver安装第三方软件

懒得勤快

线程的故事:我的3位母亲成就了优秀的我!

王磊

Java 线程 多线程

GitHub开源:4行代码实现《黑客帝国》数字雨特效

不脱发的程序猿

GitHub 开源 程序人生 4月日更 黑客帝国

开发知识 | 即时通讯是怎么做到的?

APICloud

大前端 即时通讯 APP开发 小程序制作 开发技巧

加密原理详解:对称式加密VS非对称式加密

Java架构师迁哥

Android组件化和插件化开发

寻找生命中的美好

android 组件化 插件化

阿里“秘密团队”整理出来的一份Java面试复盘手册!全面复盘在望

Java架构之路

Java 程序员 架构 面试 编程语言

泉州有了一个水务大脑,用AI守护“绿水青山”

百度大脑

AI

Rust从0到1-代码组织-模块

rust modules 模块

redis常见应用场景

Sakura

4月日更

阿里巴巴的“双11”高并发秒杀终极版教程!(Java语言设计)

Java 编程 程序员 架构

饿了么EMonitor演进史

阿里巴巴中间件

可观测性 饿了么 emonitor etrace

全网最全 ECMAScript 攻略

清秋

JavaScript ecmascript 大前端 ES6 Ecma

理性看待区块链+大宗商品

CECBC

区块链

编曲新手可以用什么编曲软件?

奈奈的杂社

视频录制后有噪音怎么办?教你简答几步去除视频噪音!

奈奈的杂社

走完线上 BUG 定位最后一公里

阿里巴巴中间件

可观测性 bug bug修复

Golang Test

escray

学习 极客时间 Go 语言 4月日更

这份阿里P8技术专家整理的《一面到底》Java岗,GitHub已标星79k

Java架构之路

Java 程序员 架构 面试 编程语言

推荐5个4K视频下载网站 (百万优质资源)

科技猫

网站 分享 视频 经验 资源分享

谈谈 WebRTC 的 SDP Unified Plan

拍乐云Pano

WebRTC

插件化库VirtualAPK详解

寻找生命中的美好

android 插件化 VirtualAPK

开发环境上云,打造五星级开发体验

CODING DevOps

Kubernetes 云原生 CODING Nocalhost

Amazon 进军企业内容管理领域,宣布正式发布 Textract_文化 & 方法_Kent Weare_InfoQ精选文章