限时!亚马逊云科技云从业者认证考试五折,未过免费补考!更有好礼相送! 了解详情
写点什么

Amazon Transcribe 现已推出自动对个人身份信息进行密文标记的功能

  • 2020-03-01
  • 本文字数:1652 字

    阅读完需:约 5 分钟

Amazon Transcribe 现已推出自动对个人身份信息进行密文标记的功能

我们在 AWS re:Invent 2017 上推出Amazon Transcribe,这是一项自动语音识别 (ASR) 服务,可让 AWS 客户轻松地为其应用程序添加语音转文本功能。截止到撰写本文之时,Transcribe 支持 31 种语言其中 6 种可以实现实时转录。


客户呼叫(呼叫中心、电话销售等)的自动转录是 Transcribe 使用最广的使用案例,有助于为下游分析和自然语言处理任务(例如情感分析)构建数据集。因此,应删除任何个人身份信息 (PII),保护客户隐私并遵守当地法律和法规。


可以想象,手动执行这项操作非常繁琐、耗时而且容易出错,因此 Amazon Transcribe 现在推出了支持对 PII 进行密文标记的功能。

Amazon Transcribe 现推出内容密文标记功能

如果按照说明进行操作,Transcribe 将自动识别以下 PII 信息:


  • 社会安全号码、

  • 信用卡/借记卡号、

  • 信用卡/借记卡到期日期、

  • 信用卡/借记卡 CVV 码、

  • 银行账号、

  • 银行电汇编码、

  • 借记卡/信用卡 PIN、

  • 姓名、

  • 电子邮件地址、

  • 电话号码(10 位数字)、

  • 邮寄地址。


在转录的文本中,会将它们替换为一个“[PII]”标签。您还将获得一个密文标记置信度得分(而不是通常的 ASR 得分)以及开始和结束时间戳。这些时间戳将帮助您在音频文件中找到 PII,以进行安全存储和共享,或进行其他音频处理以在源文件中对其进行密文标记处理。


这一功能非常简单易用,我们来做一个快速演示。

使用 Amazon Transcribe 对个人信息进行密文标记

首先,我录制了一个简短的包含个人信息的音频文件(当然,内容都是假的)。我这里使用的是 mp3 格式,但是我们建议您使用 FLAC 或 WAV 等无损格式,以确保准确性达到最高。


00:00
00:00


然后,我使用 AWS CLIS3 存储桶。


$ aws s3 cp julien.mp3 s3://jsimon-transcribe-us-east-1


接下来,使用 StartTranscriptionJob API 转录这个音频文件:为什么这次不使用 适用于 PHP 的 AWS 开发工具包呢?


PHP


<?phprequire 'aws.phar';
use Aws\TranscribeService\TranscribeServiceClient;
$client = new TranscribeServiceClient([ 'profile' => 'default', 'region' => 'us-east-1', 'version' => '2017-10-26']);
$result = $client->startTranscriptionJob([ 'LanguageCode' => 'en-US', 'Media' => [ 'MediaFileUri' => 's3://jsimon-transcribe-us-east-1/julien.mp3', ], 'MediaFormat' => 'mp3', 'OutputBucketName' => 'jsimon-transcribe-us-east-1', 'ContentRedaction' => [ 'RedactionType' => 'PII', 'RedactionOutput' => 'redacted' ], 'TranscriptionJobName' => 'redaction']);?>
复制代码


一个 API 调用即可搞定。我可以使用 RedactionOutput参数来控制是想要完整的和经过密文标记的输出,还是只想要经过密文标记的输出。我选择了后者。现在,我们来运行以下脚本。


$ php transcribe.php


我立刻就可以看到在 Transcribe 控制台中运行的作业。



我还可以使用 GetTranscriptionJobListTranscriptionJobs API 来检查是否已对内容进行了密文标记。作业完成后,我只需从 S3 存储桶中提取转录内容即可。


$ aws s3 cp s3://jsimon-transcribe-us-east-1/redacted-redactiontest.json .


转录内容是一个 JSON 文档,包含每个单词的详细信息。在这里,我只想要完整的转录内容,因此我使用了一个名为 jq 的开源工具来过滤文档,它很好用。


$ cat redacted-redactiontest.json| jq '.results.transcripts'


[``{


"transcript": "Good morning, everybody.My name is [PII], and today I feel like sharing a whole lot of personal information with you.Let's start with my Social Security number [PII].My credit card number is [PII] And my C V V code is [PII] My bank account number is [PII] My email address is [PII], and my phone number is [PII].Well, I think that's it.You know a whole lot about me.And I hope that Amazon transcribe is doing a good job at redacting that personal information away.Let's check."


}``]


Amazon Transcribe 非常好用。我的隐私得到安全保护。


2020-03-01 21:41652

评论

发布
暂无评论
发现更多内容

【web 开发基础】PHP中的预定义数组(46)

迷彩

php web开发基础 11月月更 预定义 超全局数组变量

Discourse 的左侧边栏可以修改吗

HoneyMoose

react源码中的hooks

flyzz177

React

(一)OpenStack---M版---双节点搭建---基础环境配置

指剑

centos OpenStack 11月月更

(二)OpenStack---M版---双节点搭建---数据库安装和配置

指剑

centos OpenStack 11月月更

python小知识-内置方法和属性应用:反射和单例

AIWeker

Python python小知识 11月月更

Spark编程基础(Python版)

指剑

Python spark 11月月更

湖仓一体电商项目(十五):实时统计商品及一级种类、二级种类访问排行业务需求和分层设计及流程图

Lansonli

湖仓一体电商项目 11月月更

react源码中的fiber架构

flyzz177

React

AWS之EC2实例搭建LAMP服务器

指剑

AWS EC2 LAMP 11月月更

AI简报-重参数化RepVGG

AIWeker

深度学习 AI简报 11月月更

xxl-job客户端架构流程

IT巅峰技术

世界杯火热进行中, 用一个div画个足球场助助兴

南城FE

CSS css3 前端 足球场

CentOS-7.2部署Squid服务

指剑

centos 11月月更 squid

【web 开发基础】PHP中多维数组的声明 (44)

迷彩

数据结构 一维数组 二维数组 11月月更 多维数组

React源码分析6-hooks源码

goClient1992

React

React源码分析4-深度理解diff算法

goClient1992

React

湖仓一体电商项目(十六):业务实现之编写写入ODS层业务代码

Lansonli

湖仓一体电商项目 11月月更

Python第三方模块:PyQt5简介

指剑

Python PyQt5 11月月更

Flink Forward Asia 2022 主论坛概览

Apache Flink

大数据 flink 实时计算

CentOS-7.2部署OpenLDAP服务器以及客户端

指剑

centos openldap 11月月更

Centos 7.2搭建MariaDB数据库服务器应用与管理

指剑

centos MariaDB 11月月更

Centos 7.2搭建HTTP服务,并进行相关配置

指剑

centos httpd 11月月更

Centos 7.2安装FTP服务并进行相关设置

指剑

centos ftp 11月月更

AWS之EC2搭建WordPress博客

指剑

AWS WordPress 11月月更

【web 开发基础】PHP中数组的遍历(45)

迷彩

数据结构 数组 foreach 11月月更 数组遍历

React源码分析5-commit

goClient1992

React

Hadoop完全分布式环境搭建(三节点)

指剑

hadoop Bigdata 11月月更

【web 开发基础】PHP中使用array()语言结构新建数组(43)

迷彩

数据结构 array 11月月更 array() 新建数组

react hook 源码完全解读

flyzz177

React

2022叉车模组发布会:打破整车生产思维,叉车迎来模组化创新

E科讯

Amazon Transcribe 现已推出自动对个人身份信息进行密文标记的功能_行业深度_AWS_InfoQ精选文章