使用 Amazon Textract 和 Amazon Comprehend Medical 实现无服务器化的医疗文档分析(二)

阅读数:1 2020 年 1 月 9 日 15:57

使用 Amazon Textract 和 Amazon Comprehend Medical 实现无服务器化的医疗文档分析(二)

实际测试

Amazon Textract 接受三种数据类型:

  • jpeg
  • png
  • pdf

通过 AWS 管理控制台上传

  1. 使用拥有 Amazon S3 上传权限的用户登录 AWS 管理控制台
  2. 进入到相应的 S3 存储桶 (medical-report-analysis-<unique_identifier>)
  3. 进入到 input 目录,点击“上传”并选择相应的文件

通过 AWS CLI 上传

  • 运行如下命令进行上传:

Python

复制代码
aws s3 cp <medical report>.png s3://medical-report-analysis-<unique_identifier>/input/<medical report>.png

关于如何配置 AWS CLI,参考如下链接:

验证结果

在相应目录中会看到对应的输出文件,如下:

  • input: .png

  • manual: /manual.txt

  • medical: /medicalreport.txt

  • phi: /phi.txt

  • raw:

    • /medicalraw.txt
    • /raw.json
  • result:

    • /medicalresult.txt

如下示例:

使用 Amazon Textract 和 Amazon Comprehend Medical 实现无服务器化的医疗文档分析(二)

小结

通过使用 Amazon Textract 和 Amazon Comprehend Medical,可以大大简化医学报告整理和针对性内容采集的工作量,医疗行业客户可以把更多精力致力于医学研究。

场景限制

  • 整体架构目前只能用于 AWS Global 账号体系,AWS China 暂时还没有这两个服务。
  • 目前 Amazon Textract 和 Amazon Comprehend Medical 都暂时只支持对于英语文本的语义分析。
  • 目前 Amazon Comprehend Medical 对于输入文档有 20,000 字节的大小限制。如果输入文档较大的话暂时无法直接使用 Amazon Comprehend Medical 对文档进行自动化语义分析。但是在使用 Amazon Textract 进行原始文档识别输出成序列化文档之后,可以通过 AWS 管理控制台将内容手动粘贴到 Amazon Comprehend Medical 中进行分析。
  • 在使用 Amazon Textract 中,目前默认识别为 Form 的格式;而 Amazon Textract 还有一种 Table 格式暂时不在这篇分享中展开。
  • 类似场景如果需要在中国实现,可以和 AWS 的业务拓展联系,AWS 有非常完善的合作伙伴生态体系来提供各种解决方案。

优化考虑

  • 在定义 AWS Lambda 函数的 AWS IAM 权限的时候,为了简化实现,我们给了两个函数相对较宽松的权限设定;如果要实现更细颗粒度的安全管控,可以对相应 AWS IAM 角色的策略文档进行细化修改,针对于特定资源特定操作实现最小颗粒度的白名单操作。
  • 在之前 Amazon S3 存储桶的配置步骤里,我们启用了 Amazon S3 的版本控制来满足输入输出文件的多版本控制;如果希望细化结果输出为不同时期不同结果的话,可以在代码里加上相应的时间定义和输出文件格式的修改来实现这个目的。
  • 在此场景中,Amazon Textract 对于文档内容提取和识别的自信度设置为 70%,Amazon Comprehend Medical 对于文本进行语义分析的自信度设置为 60%;在将该架构运用于生产中之前,针对实际文档的清晰度和结构完整性的不同,以及对于内容输出的准确性高低差异,可以相应地在代码里调整这两个值以满足最符合实际场景的要求。

参考文档

作者介绍:

!
复制代码
AWS 中国团队的解决方案架构师,负责基于 AWS 的云计算方案架构咨询和设计,同时致力于 AWS 云服务在国内教育行业的应用和推广。在加入 AWS 之前,他曾服务与英孚教育,微软等跨国公司。劳佳琦平时热爱足球和音乐,同时也乐于和他人分享自己的各种经历。

本文转载自 AWS 技术博客。

原文链接: https://amazonaws-china.com/cn/blogs/china/serverless-medical-document-analysis-with-amazon-textract-and-amazon-comprehend-medical/

评论

发布