写点什么

Amazon Polly – 支持 47 种语音与 24 种语言的文本到语音转换服务

  • 2019-11-19
  • 本文字数:1670 字

    阅读完需:约 5 分钟

Amazon Polly – 支持47种语音与24种语言的文本到语音转换服务

在准备写下这篇文章时,我的思绪不禁回到了自己的孩提时代(那时候大部分时间都用在了看电视上)。上世纪六十到七十年代,出现了大批热门的计算机与机器人语音产品。一瞬间,哈尔-9000、B9(来自〈迷失太空〉)、初代《星际旅行》中的计算机以及罗茜(来自〈摩登家庭〉)等形象再次涌现在我眼前。那个时候,人们都热衷于这种机械生成的语音——声音精准、清晰且缺乏人类应有的情感。


时间快速推进,如今我们已经拥有大量出色的计算机生成语音应用及用例可供选择,业界将其称为文本到语音或者简称 TTS 功能。娱乐、游戏、公共发布系统、电子学习、电话、辅助应用及设备乃至个人助手都已经开始将其引入。其中大部分应用能够很好地对接移动环境,但本地处理及存储型方案则表现平平。

你好, Polly

为了解决此类用例的实际需求(当然也包括其它大家能够想到的场景),我们推出了Polly,这项云服务能够将文本转化为逼真的语音,并允许大家将其用于您的工具及应用程序当中。Polly 目前支持总计 47 种男声/女声表达并涵盖 24 种语言(暂不支持中文),而更多语言及语音选项亦在路线图规划之中。


Polly 的设计目标在于解决语音生成工作中的大部分常见挑战。举例来说,我们以“live”一词为例,“I live in Seattle”代表我生活在西雅图,而“Live from New York”则代表由纽约发回的现场直播,二者在意义上显然存在差别。Polly 能够理解这种同一词汇在不同语境下的含义,并给出完全不同的发音。类似的例子还有“St.”。根据语言类别及上下文背景的不同,其可以代表(或者应该发音为)“Street(街道)”或者“saint(圣)”。Polly 同样能够准确识别二者间的差别。另外,Polly 亦能够处理单位、分数、缩写、货币、日期、时间以及其它复杂的语言成分与表达方式。


为了实现这一目标,我们与以 Polly 支持的目标语言为母语的语言专家们进行合作。我们要求每位参与者利用其选定的语种提供大量单词与短语发音,并将音频拆分为声音单元,即双音素。


Polly 在处理普通文本时拥有良好表现。大家只需要提交文本,Polly 即可顺利完成接下来的工作,即以音频文件或者流媒体的方式给出精准、自然且与人类相似的语音表达。对于其它更为复杂的应用,大家可以使用SSML(即语音合成标记语言)为 Polly 提供更多附加信息。举例来说,如果您的文本内容中包含多种语言(例如英语与法语混杂),则可利用 SSML 作出标记以纠正发音。


在本文中我无法直接提供相关语音片段,因此感兴趣的朋友可以直接访问Polly Consolehttps://console.aws.amazon.com/polly)并亲自加以尝试。大家只需要输入文本内容并点击Listen to speech(听取语音)即可:



大家也可以将生成的音频保存在 MP3 文件并将其运用于您的应用程序当中。


以下为完全展开的语言与地区菜单:


技术细节

通过 Console 使用 Polly 当然非常便利,不过大家也可以采取其它方式以实现更具动态的使用途径。大家可以在文本或者 SSML 当中调用SynthesizeSpeech API 函数。大家可以直接将输出结果以流媒体形式直接交付至用户,或者生成 MP3 或 Ogg 文件以备需要时播放。Polly 能够以 MP3 或者 Vorbis 格式生成高质量(最高采样率为 22 kHz)音频,亦可以 PCM 格式生成电话质量级(8 kHz)音频。


大家也可以利用 AWS 命令行界面(CLI)生成音频。例如:



Polly 会对全部闲置数据进行加密,并通过 SSL 连接进行音频传输。所提交文本与提交者间的关联将被移除,以加密形式存储最多 6 个月,并被用于维护及改进 Polly 功能。

价格与上线时间

大家每月可以利用 Polly 处理 500 万字而无需支付任何费用。在此之后,每个字的处理价格为 0.000004 美元,或者折合为音频生成约为每分钟 0.004 美元。本篇博文的语音转换价格约为 0.018 美元,而《哈克贝利-费恩历险记》全文的语音转换亦仅需约 2.4 美元。


Polly目前已经在美国东部(北弗吉尼亚州)、美国西部(俄勒冈州)、美国东部(俄亥俄州)以及欧洲(爱尔兰)服务区上线,大家可以从今天开始加以使用。


本文转载自 AWS 技术博客。


原文链接:https://amazonaws-china.com/cn/blogs/china/polly-text-to-speech-in-47-voices-and-24-languages/


2019-11-19 08:001195

评论

发布
暂无评论
发现更多内容

华为云全球加速GA:为您提供优质的网络服务

与时俱进的时代

从各行业的实际运用中,窥见华为云虚拟专用网络VPN的强大性能

爱尚科技

华为云弹性负载均衡ELB,如何保障服务器不瘫痪?

科技说

安全可靠,弹性灵活--华为虚拟专用网络VPN

爱尚科技

Maya的7个实用操作技巧

Finovy Cloud

云渲染 Maya,渲染

时序数据库 TDengine 签约华锐技术,助力行情数据处理分析

TDengine

数据库 tdengine 时序数据库

有奖评测 | Serverless 应用引擎 SAE 征集令开启

阿里巴巴云原生

阿里云 Serverless 云原生

一文解析Spring JDBC Template的使用指导

华为云开发者联盟

开发 华为云 12 月 PK 榜

华为云VPN,经典跟专业版企业应该怎么选?

爱尚科技

SeaTunnel 在天翼云数据集成平台的探索实践

Apache SeaTunnel

数据同步 数据集成平台

软件测试丨一文搞定 Postman 接口自动化测试

测试人

软件测试 Postman 自动化测试 接口测试 测试开发

Wallys/QCA9531,MIMO,2.4G,30dBm,2 x 2.4G MMCX//AR9344 802.11a/802.11n 5G

wallysSK

统一观测|如何使用 Prometheus 监控 Windows

阿里巴巴云原生

阿里云 云原生 Prometheus

架构实战营模块3作业

程序员小张

「架构实战营」

原力MetaForce2.0版本佛萨奇系统开发技术讲解方案

I8O28578624

华为云Classroom聚焦人才数字化转型,引领智慧教育改革新模式

华为云开发者联盟

开发 华为云 12 月 PK 榜

国产数据库市场横空杀出个巨头?亚信 AntDB数据库凭什么

亚信AntDB数据库

数据库 AntDB 国产数据库 AntDB数据库

对不起,你做的A/B实验都是错的——火山引擎DataTester科普

字节跳动数据平台

大数据 AB testing实战 12 月 PK 榜

Fastjson的反序列化漏洞复现

网络安全学海

黑客 网络安全 信息安全 渗透测试 漏洞挖掘

华为云智能云接入ICA,助力企业轻松上云

与时俱进的时代

智能合约DAPP流动性质押挖矿分红系统开发说明及方案

I8O28578624

羊了怎么居家办公?免费不限速的远控软件RayLink一解燃眉之急!!

RayLink远程工具

远程控制软件 远程办公软件 远控软件 RayLink

刨根问底系列之grpc-java入门

零点999

Wallys/QCA9531,MIMO,2.4G,30dBm,2 x 2.4G MMCX//AR9344 802.11a/802.11n 5G

wallysmeng

NFTScan 2022 年度总结

NFT Research

NFT 数据基础设施

华为云弹性负载均衡服务,如何助企业应付流量压力

科技说

大势所趋_ 华为云企业交换机ESW助力智慧医院转型

科技说

盘点Python 中字符串的常用操作

华为云开发者联盟

Python 开发 华为云 12 月 PK 榜

华为云智能云接入ICA,企业数据上云的信赖之选

与时俱进的时代

先进工具,助力数据科学工作者快速调优丨和鲸科技 × Weights & Biases

ModelWhale

人工智能 数据分析 模型训练 训练营 企业合作

从三万英尺看全链路灰度

阿里巴巴云原生

阿里云 云原生 全链路灰度

Amazon Polly – 支持47种语音与24种语言的文本到语音转换服务_语言 & 开发_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章