使用 AWS Transcribe 配合物联网设备构建一套支持多语种的语音到文本通知系统_大数据_亚马逊云科技 (Amazon Web Services）



 写点什么

使用 AWS Transcribe 配合物联网设备构建一套支持多语种的语音到文本通知系统

Original URL: https://aws.amazon.com/cn/blogs/machine-learning/building-a-speech-to-text-notification-system-in-different-languages-with-aws-transcribe-and-an-iot-device/

您是否希望访客能在您不在家时给您留言？是否希望这样的解决方案能够支持您惯常使用的母语？其实很简单，我们可以轻松构建起这样一套具有成本效益的解决方案，而且只需要为实际使用的资源付费。

本文将向大家介绍如何构建一套通知系统，其能够检测造访人士、录制音频、将音频转录为文本、并通过您熟悉的语言将文本发送至移动设备端。这套解决方案中将用到以下服务：

先决条件

要完成本轮演练，您需要做好以下准备：

工作流与架构

当传感器检测到指定范围内的人员时，接入 Raspberry Pi 的扬声器会播放初始问候语，并提示用户录制一条语音消息。该录音将被发送至 Amazon S3，由后者触发 Lambda 函数以使用 Amazon Transcribe 将语音转录为文本。转录完成之后，用户将从 Amazon SNS 处接收转录的文本通知。

下图所示，为这套解决方案的工作流程。

Amazon Transcribe 使用的深度学习过程名为自动语音识别（ASR），能够按照您选定的语种将语音快速准确地转换为文本。它还能自动添加标点符号与格式，确保输出结果具有可与手动转录相媲美的准确度。您还可以使用自定义词汇表配置 Amazon Transcribe，以获取更准确的转录效果（例如，添加家中成员的姓名）。您也可以通过配置词汇表去删除转录结果中的某些特定词汇（例如亵渎或者冒犯性词语）。Amazon Transcribe 支持多种不同语言。关于更多详细信息，请参阅Amazon Transcribe是什么？

上传 CloudFormation 栈

本文将提供一套 CloudFormation 模板，该模板将创建一个输入 S3 存储桶，用于触发 Lambda 函数以将音频转录为文本，而后通过 SNS 通知将文本发送给用户。当然，模板中也包含完成上述流程所需要的权限。

下载 CloudFormation模板。
在 AWS CloudForamtion 控制台上，选择 Upload a template file 。
选择您已经下载完成的文件。
选择 Next 。
在 Stack Name 部分，输入您的栈名称。
在 Parameters 下，使用以下输入对模板参数进行更新

参数	默认	说明
`MobileNumber`	必填	一个可接收SNS通知的有效手机号码。
`LanguageCode`	必填	音频文件的语言代码，例如English US。
`SourceS3Bucket`	必填	一个唯一的存储桶名称。

选择 Next 。
在 Options 页面上，选择 Next 。
在 Review 页面上，查看并确认各项设置。
选定勾选框以确认由模板创建相关 IAM 资源。
选择 Create 。

大家可以在 AWS CloudFormation 控制台上查看栈状态。您应该会在 5 分钟左右内看到状态转换为CREATE_COMPLETE。

从 Outputs 中记录 BucketName 与RaspberryPiUserName。

下载欢迎消息

要下载欢迎消息，请完成以下步骤：

在 Amazon Polly 控制台的 Plain text 选项卡上，输入您的欢迎信息。
在 Language and Region 部分，选择您的首选语言。
选择 Download MP3 。

将该文件重命名为greetings.mp3。
将文件移动至raspberrypi /home/pi/Downloads/文件夹。

设置 AWS IoT 凭证提供程序

设置 AWS IoT 凭证之后，我们才能安全地对物联网设备进行身份验证。关于具体操作说明，请参阅如何使用AWS IoT凭证提供程序消除设备中的AWS硬编码凭证需求。在该文第 3 步中添加以下策略，以将文件上传至 Amazon S3（而非更新 Amazon DynamoDB 表）：

Json

             {                "Version": "2012-10-17",                "Statement": {                  "Effect": "Allow",                  "Action": [                    "s3:PutObject"                  ],                  "Resource": "arn:aws:s3:::<sourceS3Bucket>"                }              }

复制代码

设置 Raspberry Pi

要设置 Raspberry Pi，请完成以下操作步骤：

在 Raspberry Pi 上，打开终端并安装AWS CLI。
为传感器创建一个 Python 文件与代码，以检测人员对象是否处于特定范围（例如 30 厘米到 200 厘米）之间。如果是，播放欢迎消息，在指定时段内（例如 20 秒）录制音频，而后将音频发送至 Amazon S3。具体请参见以下示例代码。

Json

 while True:        GPIO.setmode(GPIO.BOARD)       #Setting trigger and echo pin from ultrasonic sensor        PIN_TRIGGER = 7        PIN_ECHO = 11        GPIO.setup(PIN_TRIGGER, GPIO.OUT)        GPIO.setup(PIN_ECHO, GPIO.IN)        GPIO.output(PIN_TRIGGER, GPIO.LOW)
        print ("Waiting for sensor to settle")        time.sleep(2)
        print ("Calculating distance")        GPIO.output(PIN_TRIGGER, GPIO.HIGH)        time.sleep(0.00001)        GPIO.output(PIN_TRIGGER, GPIO.LOW)          while GPIO.input(PIN_ECHO)==0:              pulse_start_time = time.time()        while GPIO.input(PIN_ECHO)==1:              pulse_end_time = time.time()        pulse_duration = pulse_end_time - pulse_start_time        print(pulse_end_time)        print(pulse_end_time)       #Calculating distance in cm based on duration of pulse.               distance = round(pulse_duration * 17150, 2)        print ("Distance:",distance,"cm")

        if 30 <= distance <= 200:            cmd = "ffplay -nodisp -autoexit /home/pi/Downloads/greetings.mp3"            print ("Starting Recorder")            os.system(cmd)            #Recording for 20 seconds, adding timestamp to the filename and sending file to S3            cmd1  ='DATE_HREAD=$(date "+%s");arecord /home/pi/Desktop/$DATE_HREAD.wav -D sysdefault:CARD=1 -d 20 -r 48000;aws s3 cp /home/pi/Desktop/$DATE_HREAD.wav s3://homeautomation12121212'            os.system(cmd1)
        else:            print ("Nothing detected")

复制代码

运行 Python 文件。

超声波传感器会不断寻找正接近您家附近的人员。当检测到有人时，扬声器会播放欢迎消息并要求访客开始录音。录音随后会被发送到 Amazon S3。

如果您的扬声器与麦克风接入多个设备，例如 HDMI 与 USB，请配置asoundrc文件。

测试解决方案

将 Raspberry Pi 放置在您家中能够感知到他人并录制音频的位置。

当该人出现在 Raspberyy Pi 面前时，他们应该听到欢迎消息。他们可以在录制音频后离开，而您能够收到由录制音频转录而成的文本短信。

总结

本文展示了如何使用 AWS 服务构建安全的语音到文本通知解决方案。如果您在未来的应用场景中需要使用多种不同语言，将语音内容转换为文本，则可以直接集成这套解决方案。如果您有任何问题或者意见，请在评论区中与我们交流。

作者介绍：

Vikas Shah

Amazon Web Services 公司企业级解决方案架构师。他是一位技术爱好者，乐于帮助客户为复杂的业务挑战找到创新型解决方案。他对机器学习、物联网、机器人技术以及存储抱有浓厚兴趣。在业余时间，Vikas 喜欢组装机器人、远足和旅行。

Anusha Dharmalingam

Amazon Web Services 公司解决方案架构师。她对应用程序开发与大数据解决方案充满热情。Anusha 与企业客户合作，帮助他们设计、构建并扩展用于实现业务目标的应用程序。

本文转载自亚马逊 AWS 官方博客。

原文链接：

使用 AWS Transcribe 配合物联网设备构建一套支持多语种的语音到文本通知系统

发布

暂无评论

创作场景

使用 AWS Transcribe 配合物联网设备构建一套支持多语种的语音到文本通知系统

先决条件

工作流与架构

上传 CloudFormation 栈

下载欢迎消息

设置 AWS IoT 凭证提供程序

设置 Raspberry Pi

测试解决方案

总结

评论

Wireshark的数据包

预训练大模型的演变与突破

2023 中国 Serverless 用户调查，邀您填写！

特斯拉开源 Roadster 文件随便用；微软 Copilot AI 技术开放或不对大陆开放丨 RTE 开发者日报 Vol.92

PP-OCR与文心一言强强结合，无须训练，信息抽取精度超80%！

LLM大模型AI能力助力企业数字化智能化转型

马斯克发布一封指控 Sam Altman 的匿名信引发猜测，OpenAI “宫斗大戏”终迎结局？

一起学Elasticsearch系列-分词器

生成式语言大模型的工程实践

Windows10 下 CUDA 新旧多版本共存

这19个JS代码技巧，后悔没有早点看到

Mac电脑好用的音频修复和增强工具： iZotope RX 10最新版激活包

KaiwuDB 亮相中国 5G+工业互联网大会，助力新型工业化

阿里巴巴商品详情 API 的深度解析与应用

LED屏幕行业当前形势及未来

📝 App备案与iOS云管理式证书，公钥及证书SHA-1指纹的获取方法

活动回顾｜阿里云云原生 Serverless 技术实践营深圳站回放&PPT下载

生产效率的革新：腾讯混元大模型实测！

创作场景

使用 AWS Transcribe 配合物联网设备构建一套支持多语种的语音到文本通知系统

先决条件

工作流与架构

上传 CloudFormation 栈

下载欢迎消息

设置 AWS IoT 凭证提供程序

设置 Raspberry Pi

测试解决方案

总结

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载