亚马逊 Alexa 借助神经网络生成播音员声音

阅读数:498 2018 年 12 月 10 日

亚马逊最近宣布开发定制的 Alexa 语音,适合用于阅读新闻。早期的实现是通过连接小的音频片段来产生完整的句子,从而实现文本到语音功能。亚马逊正在使用生成神经网络来合成一种更自然的语音,而且可以根据文本的上下文提供不同的语音风格。

该系统的第一个应用演示了一种听起来更自然的声音。亚马逊的 Alexa 将在未来几周内使用新的声音。通过从新闻频道捕获音频片段,然后利用机器学习来检测它们阅读文本的方式,以此来获得类似新闻播报员的声音。这些细微差别很难通过确定性算法识别出来,因此需要采用统计方法来检测和应用它们。亚马逊使用了几个小时长度的数据来教授机器学习算法如何让声音听起来更像是一个新闻播报员的声音,这意味着获得不同风格的声音指日可待。

为了获得像新闻播音员那样的声音,一种方法是招募语音人才,让他们以自己的风格读出声音,将他们的录音分成小的语音样本,并进行合成。这是非常耗时的,而且成本很高。文本到语音神经网络系统的创新之处在于它采用了“样式编码”模块来识别语音样本的风格。系统将大量中性风格的语音数据与带有风格的几小时补充数据相结合。它可以模拟语音的各个方面,如韵律和其他特征。

公告是在 Alexa 最近增加了耳语(whisper)模式之后发布的,该模式允许在与数字助理的深夜或早晨模式对话中使用更柔和的语音。 Google Assistant 已经在使用由伦敦 AI 实验室 DeepMind 开发的基于机器学习的语音合成。Apple 的 Siri 正在使用隐马尔科夫模型机器学习来合成长达 20 小时的专业录音。

查看英文原文: Alexa Soon to Offer “Newscaster” Voice: Applying Generative Neural Networks for Text-to-Speach

收藏

评论

微博

发表评论

注册/登录 InfoQ 发表评论