亚马逊Alexa借助神经网络生成播音员声音-InfoQ



 写点什么

登录/注册

亚马逊Alexa借助神经网络生成播音员声音

亚马逊最近宣布开发定制的 Alexa 语音，适合用于阅读新闻。早期的实现是通过连接小的音频片段来产生完整的句子，从而实现文本到语音功能。亚马逊正在使用生成神经网络来合成一种更自然的语音，而且可以根据文本的上下文提供不同的语音风格。

该系统的第一个应用演示了一种听起来更自然的声音。亚马逊的 Alexa 将在未来几周内使用新的声音。通过从新闻频道捕获音频片段，然后利用机器学习来检测它们阅读文本的方式，以此来获得类似新闻播报员的声音。这些细微差别很难通过确定性算法识别出来，因此需要采用统计方法来检测和应用它们。亚马逊使用了几个小时长度的数据来教授机器学习算法如何让声音听起来更像是一个新闻播报员的声音，这意味着获得不同风格的声音指日可待。

为了获得像新闻播音员那样的声音，一种方法是招募语音人才，让他们以自己的风格读出声音，将他们的录音分成小的语音样本，并进行合成。这是非常耗时的，而且成本很高。文本到语音神经网络系统的创新之处在于它采用了“样式编码”模块来识别语音样本的风格。系统将大量中性风格的语音数据与带有风格的几小时补充数据相结合。它可以模拟语音的各个方面，如韵律和其他特征。

公告是在 Alexa 最近增加了耳语（whisper）模式之后发布的，该模式允许在与数字助理的深夜或早晨模式对话中使用更柔和的语音。 Google Assistant 已经在使用由伦敦 AI 实验室 DeepMind 开发的基于机器学习的语音合成。Apple 的 Siri 正在使用隐马尔科夫模型机器学习来合成长达 20 小时的专业录音。

查看英文原文：Alexa Soon to Offer “Newscaster” Voice: Applying Generative Neural Networks for Text-to-Speach

评论 1 条评论

发布

暂无评论

不仅性能秒杀Hadoop，现在连分布式集群功能也开源了

爱倒腾的程序员

大数据涛思数据 tdengine 物联网时序数据库

秒杀系统设计初稿

JVM学习总结

关于微信电子发票生态，这三种服务商最有机会

电子发票发票

JVM系列之:从汇编角度分析Volatile

程序那些事

Java JVM JIT 汇编

Ubuntu启动盘无法格式化

NOSQL or NEWSQL

总结

架构师训练营第九章总结

架构师训练营 - 第九周 - 作业

Atlassian 重磅推出12个新功能为您打造全新 DevOps 体验！

项目管理 DevOps Atlassian Jira

计算机网络基础(十四)---传输层-UDP协议详解

计算机网络网络协议栈通信协议

面经手册 · 第2篇《数据结构，HashCode为什么使用31作为乘数？》

Java 数据结构小傅哥面试官

尚未到来的远程工作

ThoughtWorks洞见

敏捷敏捷开发软件开发远程办公 thoughtworks

第9周总结+作业

【第九周作业】

微服务架构下的核心话题 (一)：微服务架构下各类项目的顺势崛起

架构微服务

树莓派上安装docker记录

SpreadJS 纯前端表格控件应用案例：SPDQD 质量数据云

SpreadJS 案例

训练一个数据不够多的数据集是什么体验？

华为云开发者社区

数据数据集华为云标签 modelarts

一周信创舆情观察(7.27~8.2)

当面试官问我ArrayList和LinkedList哪个更占空间时，我这么答让他眼前一亮

Java 面试集合面试题 java基础

HomeWork

Docker-compose实战

北漂码农有话说

我还在生产玩 JDK7，JDK 15 却要来了!|新特性尝鲜

楼下小黑哥

技术贴丨教你使用华为云鲲鹏服务器部署Discuz!论坛

华为云开发者社区

鲲鹏920 服务器华为云 Discuz! 华为云鲲鹏

并发-草稿

《RabbitMQ》如何保证消息的可靠性

Elasticsearch从入门到放弃：瞎说Mapping

秒杀系统的架构设计

作业一

2021年全国大学生计算机系统能力大赛操作系统设计赛技术报告会

2021年全国大学生计算机系统能力大赛操作系统设计赛技术报告会