NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

Amazon Transcribe 现已推出自动对个人身份信息进行密文标记的功能

  • 2020-03-01
  • 本文字数:1652 字

    阅读完需:约 5 分钟

Amazon Transcribe 现已推出自动对个人身份信息进行密文标记的功能

我们在 AWS re:Invent 2017 上推出Amazon Transcribe,这是一项自动语音识别 (ASR) 服务,可让 AWS 客户轻松地为其应用程序添加语音转文本功能。截止到撰写本文之时,Transcribe 支持 31 种语言其中 6 种可以实现实时转录。


客户呼叫(呼叫中心、电话销售等)的自动转录是 Transcribe 使用最广的使用案例,有助于为下游分析和自然语言处理任务(例如情感分析)构建数据集。因此,应删除任何个人身份信息 (PII),保护客户隐私并遵守当地法律和法规。


可以想象,手动执行这项操作非常繁琐、耗时而且容易出错,因此 Amazon Transcribe 现在推出了支持对 PII 进行密文标记的功能。

Amazon Transcribe 现推出内容密文标记功能

如果按照说明进行操作,Transcribe 将自动识别以下 PII 信息:


  • 社会安全号码、

  • 信用卡/借记卡号、

  • 信用卡/借记卡到期日期、

  • 信用卡/借记卡 CVV 码、

  • 银行账号、

  • 银行电汇编码、

  • 借记卡/信用卡 PIN、

  • 姓名、

  • 电子邮件地址、

  • 电话号码(10 位数字)、

  • 邮寄地址。


在转录的文本中,会将它们替换为一个“[PII]”标签。您还将获得一个密文标记置信度得分(而不是通常的 ASR 得分)以及开始和结束时间戳。这些时间戳将帮助您在音频文件中找到 PII,以进行安全存储和共享,或进行其他音频处理以在源文件中对其进行密文标记处理。


这一功能非常简单易用,我们来做一个快速演示。

使用 Amazon Transcribe 对个人信息进行密文标记

首先,我录制了一个简短的包含个人信息的音频文件(当然,内容都是假的)。我这里使用的是 mp3 格式,但是我们建议您使用 FLAC 或 WAV 等无损格式,以确保准确性达到最高。


00:00
00:00


然后,我使用 AWS CLIS3 存储桶。


$ aws s3 cp julien.mp3 s3://jsimon-transcribe-us-east-1


接下来,使用 StartTranscriptionJob API 转录这个音频文件:为什么这次不使用 适用于 PHP 的 AWS 开发工具包呢?


PHP


<?phprequire 'aws.phar';
use Aws\TranscribeService\TranscribeServiceClient;
$client = new TranscribeServiceClient([ 'profile' => 'default', 'region' => 'us-east-1', 'version' => '2017-10-26']);
$result = $client->startTranscriptionJob([ 'LanguageCode' => 'en-US', 'Media' => [ 'MediaFileUri' => 's3://jsimon-transcribe-us-east-1/julien.mp3', ], 'MediaFormat' => 'mp3', 'OutputBucketName' => 'jsimon-transcribe-us-east-1', 'ContentRedaction' => [ 'RedactionType' => 'PII', 'RedactionOutput' => 'redacted' ], 'TranscriptionJobName' => 'redaction']);?>
复制代码


一个 API 调用即可搞定。我可以使用 RedactionOutput参数来控制是想要完整的和经过密文标记的输出,还是只想要经过密文标记的输出。我选择了后者。现在,我们来运行以下脚本。


$ php transcribe.php


我立刻就可以看到在 Transcribe 控制台中运行的作业。



我还可以使用 GetTranscriptionJobListTranscriptionJobs API 来检查是否已对内容进行了密文标记。作业完成后,我只需从 S3 存储桶中提取转录内容即可。


$ aws s3 cp s3://jsimon-transcribe-us-east-1/redacted-redactiontest.json .


转录内容是一个 JSON 文档,包含每个单词的详细信息。在这里,我只想要完整的转录内容,因此我使用了一个名为 jq 的开源工具来过滤文档,它很好用。


$ cat redacted-redactiontest.json| jq '.results.transcripts'


[``{


"transcript": "Good morning, everybody.My name is [PII], and today I feel like sharing a whole lot of personal information with you.Let's start with my Social Security number [PII].My credit card number is [PII] And my C V V code is [PII] My bank account number is [PII] My email address is [PII], and my phone number is [PII].Well, I think that's it.You know a whole lot about me.And I hope that Amazon transcribe is doing a good job at redacting that personal information away.Let's check."


}``]


Amazon Transcribe 非常好用。我的隐私得到安全保护。


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2020-03-01 21:41596

评论

发布
暂无评论
发现更多内容

低代码概念——初步认识低代码

互联网工科生

低代码 企业级应用程序开发 JNPF

没有苹果开发者账号能否创建ios证书-最新

搜索引擎基础《解开网络密钥 - 互联网研究指南》

小猪佩奇身上纹

可不能忽视的五个 HTTP 请求要点

Liam

程序员 前端 后端 HTTP API

今年有什么新内容?《解开网络密钥 - 互联网研究指南》

小猪佩奇身上纹

大模型知识助手,成功切入万亿级企业服务赛道

中关村科金

大模型 知识库

从降本增效到价值创造,大模型如何重塑智能语音产品

中关村科金

大模型 智能语音

从《孤注一掷》出发,聊聊 SSL 证书的重要性

火山引擎边缘云

https HTTP SSL证书 HTTPS协议

软件开发常说的CI/CD是什么

越长大越悲伤

CI/CD

Go 切片

小万哥

Go 程序员 后端 开发 Google

Semi D2C 设计稿转代码的演进之路

SemiDesign

figma Semi Design D2C Design to Code

DxO PureRAW for Mac(RAW照片处理器)v3.5.0中文激活版

mac

照片处理工具 苹果mac Windows软件 DxO PureRAW

【区块链DAPP】智能合约概述

西安链酷科技

区块链 DAPP系统开发 合约交易所开发

重新定义生产力与创造力的新力量

百度开发者中心

人工智能 ChatGPT 生成式AI 文心一言

不就是接根网线的事么?

小齐写代码

网络技术

Maxon Explosion-proof Areas Monitoring CCTV Wireless Transfer Solutions

wifi6module

自动驾驶点云标注:挑战与解决方案

来自四九城儿

简化测试流程,提供卓越服务:TestComplete+Salesforce满足不断发展的企业的需求

龙智—DevSecOps解决方案

驶向高效运营,StarRocks 助力蔚来汽车数据分析再升级

StarRocks

数据库 大数据 数据仓库 数据湖

DevOps理念:开发与运维的融合

这我可不懂

DevOps 自动化 开发运维

ARTS-WEEK3-23.8.28~23.9.2

EchoZhou

元载万物·智启新界,2023创业邦AIGC技术应用大会在深圳举行

创业邦

2023值得关注的125家AIGC企业闪亮发布!

创业邦

技术思维和管理思维

老张

技术思维 管理思维

Axure RP 9 for Mac(交互式产品原型设计工具) v9.0.0.3682中文激活版

mac

Axure RP 9 苹果mac Windows软件 产品原型设计软件

云原生架构:在云环境中构建弹性应用

树上有只程序猿

微服务 云原生 容器化

火热的低代码

这我可不懂

低代码 企业级应用程序开发 模型驱动

没有苹果开发者账号能否创建ios证书-最新

雪奈椰子

AutoCAD 2023 for Mac(cad2023) v2023.2.1注册激活中文版

mac

2023 cad 苹果mac Windows软件 AutoCAD2023

低代码未来会颠覆开发行业吗?

高端章鱼哥

软件开发 低代码 JNPF

Python 案例实训教学,支持“教师-学生”双视角切换|ModelWhale 版本更新

ModelWhale

Python 人工智能 数据分析 超算 云课堂

Amazon Transcribe 现已推出自动对个人身份信息进行密文标记的功能_行业深度_AWS_InfoQ精选文章