GMTC北京站9折购票倒计时,部分日程已上线,戳此查看 了解详情
写点什么

Amazon Transcribe 现已推出自动对个人身份信息进行密文标记的功能

  • 2020 年 3 月 01 日
  • 本文字数:1652 字

    阅读完需:约 5 分钟

Amazon Transcribe 现已推出自动对个人身份信息进行密文标记的功能

我们在 AWS re:Invent 2017 上推出Amazon Transcribe,这是一项自动语音识别 (ASR) 服务,可让 AWS 客户轻松地为其应用程序添加语音转文本功能。截止到撰写本文之时,Transcribe 支持 31 种语言其中 6 种可以实现实时转录。


客户呼叫(呼叫中心、电话销售等)的自动转录是 Transcribe 使用最广的使用案例,有助于为下游分析和自然语言处理任务(例如情感分析)构建数据集。因此,应删除任何个人身份信息 (PII),保护客户隐私并遵守当地法律和法规。


可以想象,手动执行这项操作非常繁琐、耗时而且容易出错,因此 Amazon Transcribe 现在推出了支持对 PII 进行密文标记的功能。


Amazon Transcribe 现推出内容密文标记功能

如果按照说明进行操作,Transcribe 将自动识别以下 PII 信息:


  • 社会安全号码、

  • 信用卡/借记卡号、

  • 信用卡/借记卡到期日期、

  • 信用卡/借记卡 CVV 码、

  • 银行账号、

  • 银行电汇编码、

  • 借记卡/信用卡 PIN、

  • 姓名、

  • 电子邮件地址、

  • 电话号码(10 位数字)、

  • 邮寄地址。


在转录的文本中,会将它们替换为一个“[PII]”标签。您还将获得一个密文标记置信度得分(而不是通常的 ASR 得分)以及开始和结束时间戳。这些时间戳将帮助您在音频文件中找到 PII,以进行安全存储和共享,或进行其他音频处理以在源文件中对其进行密文标记处理。


这一功能非常简单易用,我们来做一个快速演示。


使用 Amazon Transcribe 对个人信息进行密文标记

首先,我录制了一个简短的包含个人信息的音频文件(当然,内容都是假的)。我这里使用的是 mp3 格式,但是我们建议您使用 FLAC 或 WAV 等无损格式,以确保准确性达到最高。


00:00
00:00


然后,我使用 AWS CLIS3 存储桶。


$ aws s3 cp julien.mp3 s3://jsimon-transcribe-us-east-1


接下来,使用 StartTranscriptionJob API 转录这个音频文件:为什么这次不使用 适用于 PHP 的 AWS 开发工具包呢?


PHP


<?phprequire 'aws.phar';
use Aws\TranscribeService\TranscribeServiceClient;
$client = new TranscribeServiceClient([ 'profile' => 'default', 'region' => 'us-east-1', 'version' => '2017-10-26']);
$result = $client->startTranscriptionJob([ 'LanguageCode' => 'en-US', 'Media' => [ 'MediaFileUri' => 's3://jsimon-transcribe-us-east-1/julien.mp3', ], 'MediaFormat' => 'mp3', 'OutputBucketName' => 'jsimon-transcribe-us-east-1', 'ContentRedaction' => [ 'RedactionType' => 'PII', 'RedactionOutput' => 'redacted' ], 'TranscriptionJobName' => 'redaction']);?>
复制代码


一个 API 调用即可搞定。我可以使用 RedactionOutput参数来控制是想要完整的和经过密文标记的输出,还是只想要经过密文标记的输出。我选择了后者。现在,我们来运行以下脚本。


$ php transcribe.php


我立刻就可以看到在 Transcribe 控制台中运行的作业。



我还可以使用 GetTranscriptionJobListTranscriptionJobs API 来检查是否已对内容进行了密文标记。作业完成后,我只需从 S3 存储桶中提取转录内容即可。


$ aws s3 cp s3://jsimon-transcribe-us-east-1/redacted-redactiontest.json .


转录内容是一个 JSON 文档,包含每个单词的详细信息。在这里,我只想要完整的转录内容,因此我使用了一个名为 jq 的开源工具来过滤文档,它很好用。


$ cat redacted-redactiontest.json| jq '.results.transcripts'


[``{


"transcript": "Good morning, everybody.My name is [PII], and today I feel like sharing a whole lot of personal information with you.Let's start with my Social Security number [PII].My credit card number is [PII] And my C V V code is [PII] My bank account number is [PII] My email address is [PII], and my phone number is [PII].Well, I think that's it.You know a whole lot about me.And I hope that Amazon transcribe is doing a good job at redacting that personal information away.Let's check."


}``]


Amazon Transcribe 非常好用。我的隐私得到安全保护。


2020 年 3 月 01 日 21:41343

评论

发布
暂无评论
发现更多内容

【运维思考】如何做好云上运维服务?

嘉为蓝鲸

云计算 运维 数字化转型 数据中心 云服务

架构师训练营第一期 - week8

习习

架构师训练营第 1 期第 7 周总结

du tiezheng

极客大学架构师训练营

终于啃完了Java核心原理+框架“面试圣经”成功五面上岸美团

小Q

Java 学习 编程 架构 面试

CDN是什么?

德胜网络-阳

金融科技的未来

CECBC

金融

如何实现后台管理系统的权限路由和权限菜单

徐小夕

Java 大前端 编辑器 H5 数据可视化

架构师训练营 - 第 7 周课后作业(1 期)

Pudding

【云小课】版本管理发展史之Git+——代码托管

华为云开发者社区

git 代码管理 托管

魏际刚:精准谋划我国供应链发展新方位

CECBC

供应链 物流

解决大中型浏览器(Chrome)插件开发痛点:自定义热更新方案——2.基于双缓存更新功能模块

梁龙先森

Java chrome 大前端 浏览器 技术方案

每周一看:16份文档资料,程序员软硬实力全概览,总有一个适合你

小Q

Java 学习 程序员 架构 面试

又一道比较运算符相关的面试题让我明白基础很重要

Gopher指北

Go 语言

爆料!前华为微服务专家纯手打500页落地架构实战笔记,已开源

996小迁

架构 面试 分布式 微服务 程序人生

揭秘在召唤师峡谷中移动路径选择逻辑?

华为云开发者社区

算法 地图 最短路径

谈谈敏捷开发概念和迭代开发方案

Learun

敏捷开发

浅谈API网关(API Gateway)如何承载API经济生态链

华为云开发者社区

API 网关

【涂鸦物联网足迹】涂鸦云平台接口说明

IoT云工坊

人工智能 物联网 API sdk 云平台

DB-Engines 11月数据库排名:PostgreSQL坐稳同期涨幅榜冠军宝座

华章IT

数据库 postgresql

《Python:Python编程简介:计算机编程和机器学习入门指南》

计算机与AI

Python

架构训练营 - 第7周课后作业 - 学习总结

Pudding

百亿级数据分表后怎么分页查询?

艾小仙

Java MySQL 数据库 编程语言 分库分表

如何稳扎稳打推进数字货币进程

CECBC

数字货币

一款区块链钱包开发需要多少钱?数字资产钱包开发搭建

13530558032

医疗界“最强大脑”落户杭州!阿里巴巴联合浙大一院共同打造

阿里云情报局

互联网

帮助企业摆脱困境,名企归乡工程师:能成功全靠有它!

Philips

敏捷开发

LeetCode题解:77. 组合,递归回溯,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

价值超10亿美元的直播系统架构图是什么样子的?

冰河

系统架构 高并发 高性能 亿级流量 直播架构

数字货币OTC交易所开发,交易所搭建方案

13530558032

重磅解读:K8s Cluster Autoscaler模块及对应华为云插件Deep Dive

华为云开发者社区

容器 k8s 服务

Apache DolphinScheduler 是如何走进Apache的

代立冬

大数据 数据湖调度 DolphinScheduler Apache DolphinScheduler

Amazon Transcribe 现已推出自动对个人身份信息进行密文标记的功能_新基建_AWS_InfoQ精选文章