【ArchSummit】如何通过AIOps推动可量化的业务价值增长和效率提升?>>> 了解详情
写点什么

使用新的声道 SSML 功能修改 Amazon Polly 语音的音品

  • 2019-11-06
  • 本文字数:2648 字

    阅读完需:约 9 分钟

使用新的声道 SSML 功能修改 Amazon Polly 语音的音品

今天,Amazon Polly 团队很高兴地宣布推出一项新的语音合成标记语言 (SSML) 功能,该功能使得开发人员可以修改任意文本到语音转换 (TTS) 声音的音品。这是一项极具吸引力的功能,适合希望在 Amazon Polly 产品组合中自定义现有语音的客户,使得声音更加贴近在其使用案例中所塑造的特定角色。客户在场景中需要使用多个不同的声音时,该功能尤为有用,因为音品功能使得客户可以轻松地从可用的各个 Amazon Polly 语音自定义多个声音形象。

什么是音品?

音品 描述了人们所感受到的音色或音质,这与音高或音量无关。它经常用于音乐中,例如用于区分铜管乐器和弦乐器,或者用于描述中提琴与小提琴的细微差别。音品是一种可用于区分各种乐器的感知属性,即使这些乐器都在以相同的音量演奏相同的调子。与此类似,在具体的语音场景中,音品是一个声音与另一个声音的区别,即使这些声音具有相同的音高 (即其基本频率) 和音量 (振幅)。


每个人的声音都是独一无二的,这是由于多种因素造成的,包括人的生理机能以及发出声音的方式。每个人的声带、声道的大小和形状甚至整个身体的大小和形状,在决定其正常的语音品质方面都起到了重要的作用。有一些方法,例如个人控制舌头的位置、收紧或松弛肌肉或者施加气压,都可以改变语音的音高、音量和音品。经过专业训练的演员可以学习控制这些动作,甚至能够改变自己的声音来模仿他人的声音。

声道与音高

影响到语音音品的一项重要生理特征是声道,这是从声带顶部直到嘴唇边缘的一个空气腔体。有多块肌肉可以用于改变声道腔体的形状,可以让它变长、变短、变宽或变窄。这些改变的效果是导致放大或过滤掉语音。


音高 是一项听觉属性,影响感受到的声音是高还是低。在发出语音的具体过程中,音高由声带振动的频率决定。相比男性,女性通常具有较短的声带,振动频率较高 (每秒约 180 到 200 个周期)。平均而言,男性具有较长的声带,振动更慢 (每秒约 110 个周期)。与此类似,女性的平均声道长度比男性要短 (分别为约 14 厘米与约 17 厘米)。


声带长度和声道长度具有内在的关联,也就是说,其中一个更长,另一个也倾向于随之更长。利用音品功能,开发人员可以在保留控制音高能力的同时更改声道的大小。

声道和语音合成

使用


vocal-tract-lengthSSML 标记,您可以通过更改发言者的声道来控制输入语音的音品。这听上去像是更改了发言者的身体大小。当您增加


vocal-tract-length 时,发言者的声音听上去像是他们的个子更大。减小时,听上去像是个子更小。此标记可用于 Amazon Polly 文本到语音转换产品组合中的任何语音。


下面说明了如何修改发言者声道的长度:


  • +n% 或 -n%:按当前语音的相对百分比进行更改,来调整声道长度。例如,+4% 或 -2%。

  • n%:按当前语音的绝对百分比值来调整声道长度。例如,104% 或 98%。

  • 声道长度最多可以增加 100% 和减少 50%。

  • 要将声道长度重置为当前语音的默认值,请使用 <amazon:effect vocal-tract-length=“100%”>


下面的示例说明如何修改声道长度,使用的是 Joanna 的语音:


Html


<speak>This is my original voice, without any modifications. <amazon:effect vocal-tract-length="+15%"> Now, imagine that I am much bigger. </amazon:effect> <amazon:effect vocal-tract-length="-15%"> Or, perhaps you prefer my voice when I'm very small? </amazon:effect> You can also control the timbre of my voice by making more minor adjustments. <amazon:effect vocal-tract-length="+10%"> For example, by making me sound just a little bigger. </amazon:effect> <amazon:effect vocal-tract-length="-10%"> Or instead, making me sound only somewhat smaller. </amazon:effect> </speak>``` ****
col 1 | col 2 -------------------------------------------------------------------------------------------------------------------------------------------------------- | ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------[](https://d2908q01vomqb2.awsstatic-china.com/b6692ea5df920cad691c20319a6fffd7a4a766b8/2017/04/20/Polly_mini.gif)](https://amazonaws-china.com/polly/) | <small>立即收听</small>
<audio id="audio-2300-1" class="wp-audio-shortcode" style="width: 100%" preload="none" controls="controls"></audio>
<small>语音由 <a href="https://amazonaws-china.com/polly/" target="_blank" rel="noopener noreferrer">Amazon Polly</a> 提供</small>
## 结合使用多个标记
您可以将 <tt>vocal-tract-length</tt> SSML 标记与 Amazon Polly 支持的任何其他 SSML 标记结合使用。由于声道长度和音高具有内在的紧密联系,通过将声道长度与音高 (通过应用 <prosody pitch> 标记) 一起更改,您可能会得到最佳效果。
Html

复制代码


The pitch and timbre of a person's voice are connected in human speech.


If you are going to reduce the vocal tract length,


you might consider increasing the pitch as well.


If instead you choose to lengthen the vocal tract,


you might also want to lower the pitch.


col 1col 2
立即收听


00:00
00:00


语音由 Amazon Polly 提供


我们鼓励您试验 vocal-tract-length 与 pitch 设置的不同组合,找出最适合您需求的语音质量。为了帮助您探索这一过程,我们向您提供了以下样本库,您可以下载并收听。您会发现,这些样本中包括了从非常逼真的人类语音到更接近动画角色的语音。


Vocal-Tract-Length 和 Pitch 样本库 (.ppt)


如果您有任何疑问,请在评论中留言。


本文转载自 AWS 技术博客。


原文链接:


https://amazonaws-china.com/cn/blogs/china/modify-the-timbre-of-amazon-polly-voices-with-the-new-vocal-tract-ssml-feature/


2019-11-06 08:00558

评论

发布
暂无评论
发现更多内容

【荣耀开发者服务平台—百亿曝光扶持等你来】智慧服务快应用卡片接入指南(上)

荣耀开发者服务平台

JavaScript 前端 UI 安卓 honor

字节跳动 DanceCC 工具链系列之Xcode LLDB耗时监控统计方案

字节跳动终端技术

ios xcode swift LLVM 客户端

Dubbo Mesh - 从服务框架到统一服务控制平台

阿里巴巴云原生

阿里云 开源 微服务 云原生 dubbo

校招前端面试题

夏天的味道123

JavaScript 前端

LED显示屏是否可以实现智能化控制

Dylan

LED显示屏 户外LED显示屏 led显示屏厂家

测试平台解决了什么问题?

老张

测试平台

博弈论(depu)与孙子兵法-02(46/100)

hackstoic

博弈论

高并发下的网络 IO 模型设计

C++后台开发

后台开发 reactor 高并发 epoll 网络io模型

实战Elasticsearch6的join类型

程序员欣宸

elasticsearch 9月月更

源码 | SpringBoot启动流程大揭秘

六月的雨在InfoQ

源码 springboot SpringBoot实战 9月月更 SpringBoot启动流程

javaweb

喜羊羊

javaWeb 9月月更

如何在 Jenkins CI/CD 流水线中保护密钥?

SEAL安全

DevOps jenkins CI/CD 密钥管理 CI/CD管道

广东省湛江市等保测评机构有几家?怎么做?

行云管家

等保 等级保护 等保测评 湛江

“数智化”时代 ,房企转型路径与挑战的一种技术思路

Speedoooo

小程序 前端开发 数字化转型 移动开发 小程序容器

博云 Kubernetes 开源榜单贡献度进入全球前十

BoCloud博云

云计算 开源 云原生

中国IPv6“高速公路”,全面建成 IANA被管理权限移交 ,IP地址管理何去何从

郑州埃文科技

ipv6 ipv4 IANA

字节前端必会面试题

helloworld1024fd

JavaScript

Python 教程之数据分析(6)—— 数据分析的数学运算

海拥(haiyong.site)

Python 9月月更

Python 教程之数据分析(5)—— 使用 Python 进行数据分析和可视化 | 第 2 套

海拥(haiyong.site)

Python 9月月更

iOS端如何实现微信分享链接与登陆

MobTech袤博科技

微信 iOS SDK

什么是数据湖?全面解读数据湖与数据仓库的区别

雨果

数据中台 数据仓库 数据湖 DaaS数据即服务

大众CEO迪斯提前卸任,成败皆因软件

雨果

软件定义汽车

华为云WeLink助力平房区打造智慧政务办公

科技怪咖

设计模式的艺术 第六章抽象工厂设计模式练习(开发一款新的手机游戏软件,该软件能够支持IOS和Android等多个智能手机操作系统平台。针对不同手机操作系统,该游戏软件提供了不同的游戏操作控制类和游戏界面控制类,并提供相应的工厂类来封装这些类的初始化过程)

代廉洁

设计模式的艺术

leetcode 101. Symmetric Tree 对称二叉树(简单)

okokabcd

LeetCode 算法与数据结构

2022年全年Java岗面试题总结+一线互联网大厂Java岗面经/面试题总结!

程序员小毕

Java 程序员 面试 程序人生 后端

NFT艺术品交易平台:有哪些功能?

开源直播系统源码

NFT 数字藏品 数字藏品软件

直播预告 | PolarDB-X 动手实践系列——PolarDB-X 数据导入导出功能

阿里云数据库开源

MySQL 数据库 阿里云 云原生 PolarDB-X

【中秋福利】大数据告诉你:今年中秋礼品这样选

前嗅大数据

大数据 数据分析 数据采集 中秋 互联网+

一加现在属于OPPO吗 资深“加油”来解答

Geek_8a195c

离谱了!京东T7手写「并发编程知识手册」,从原理到项目实战详解

了不起的程序猿

Java 并发编程 java程序员 java面试 java编程

使用新的声道 SSML 功能修改 Amazon Polly 语音的音品_语言 & 开发_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章