写点什么

DeepMind 揭秘适用于语音和音频合成的深度神经网络:WaveNet

  • 2016-10-20
  • 本文字数:1326 字

    阅读完需:约 4 分钟

谷歌旗下的 DeepMind 公司近日公布了 WaveNet 项目,这是一种全面卷积(Convolutional),基于概率,可自动回归的深度神经网络。根据DeepMind 的介绍,该项目可以用比现有最好的文字转语言( TTS )系统更棒的效果通过音频和声音合成更自然的语音和音乐。

语音合成能力主要源自串接式(Concatenative) TTS,会通过由单一录音者录制的简短语音片段组成的数据库选择语音片段,重新组合并形成语音。这种方式不够灵活,无法轻松地进行调整输出新的声音,如果需要对现有声音的特诊进行较大改变,通常需要彻底重建数据库。

DeepMind 认为,原有模式极大依赖通过一个输入源,或一个录音者生成的大容量音频数据库,WaveNet 依然保留了这种模式,并将其作为一组参数,可根据新的输入结果对原有模式进行修改。这种方法也叫做参数化(Parametric)的TTS 实现,可通过支持参数的模型生成在音调或语调等特征方面有所差异的语音,随后这些语音还可通过模型进行进一步的完善。相比以往的方法使用预先生成的原始音频片段对模型进行训练,WaveNet 的 Phoneme 可调整字词和句子的顺序参数,生成更有意义的词语和句子结构,并可独立于有关声调、声音质量,以及音素语调的参数进行调整。借此 WaveNet 可以生成连续的语言类声音,并通过语言结构为这些声音赋予相关的含义。

“由于这个模型不以文字为条件,因此可以通过更为平滑的方式生成不存在,但类似人类语言的字词,同时在声音语调方面也更真实… 我们发现这个模型还可以吸收语音本身之外其他方面的音频特征,例如可以模仿声学效果和录音质量,以及讲话者的换气和嘴部活动。”

试听者在听过 WaveNet 生成的英文和普通话音频后,认为该系统能生成比最棒的参数化和串接式系统更自然的声音。DeepMind 在论文中详细介绍了这个实验的细节,并补充说:

“第一个试验中我们尝试了自由式的语音生成(不以文字为条件)。我们使用了 CSTR 声音克隆工具包(VCTK)中的英文多讲话者语料(Yamagishi,2012),并通过条件设置让 WaveNet 只关注讲话者。这个条件是通过 One-hot 向量形式以讲话者 ID 的方式提供给模型的。所用数据库包含来自 109 位讲话者,总时长 44 小时的数据… 第二个实验主要针对 TTS。我们使用了谷歌打造北美英文和中文普通话 TTS 系统时使用的同一个单一讲话者语音数据库,北美英文数据库包含 24.6 小时的语音数据,中文普通话数据库包含 34.8 小时的内容,所有内容均由专业的女性演讲者讲述。”

对串接式 TTS、参数化 TTS、WaveNet 以及人类语音音频样本(仅用作控制组)的人类语言自然度进行五分制盲测有了结果。试听者在不知道音频来源的前提下,听过音频样本后为每个样本打分。该论文所用数据集包含针对100 个测试短句给出的超过500 个评分,通过这些评分计算出平均意见得分( MOS )作为最终分数,只有 WaveNet 的自然度评分最接近人类语言的音频样本。

DeepMind 还演示了如何通过 WaveNet 最为核心的“学习型抽象”利用音频训练数据集合成音乐。目前该技术最大的问题主要围绕语音合成技术的长远影响以及一些人所谓的人工智能。但目前还不确定WaveNet 包含哪些核心语言或处理引擎,并且他们尚未提供范例代码。

查看**** 英文原文: DeepMind Unveils WaveNet - A Deep Neural Network for Speech and Audio Synthesis

2016-10-20 19:003515
用户头像

发布了 283 篇内容, 共 116.2 次阅读, 收获喜欢 62 次。

关注

评论

发布
暂无评论
发现更多内容

测试人生 | 从传统行业到名企大厂,薪资翻倍,我做到了

霍格沃兹测试开发学社

测试人生 | (汇总篇)从小团队的业务到独角兽的测开,涨薪超过60%,90后小哥哥凤凰涅槃了

霍格沃兹测试开发学社

测试面试真题|从手工到测开,一位测试媛宝妈的 BAT 大厂逆袭之旅

霍格沃兹测试开发学社

测试人生 | 年薪50w+ 并入职名企大厂,这是双非学历小哥哥给自己30岁的礼物

霍格沃兹测试开发学社

测试人生 | 突破“大专学历+半路转行”标签,从拉垮菜鸟到测试团队骨干,走到这一步很知足!

霍格沃兹测试开发学社

测试面试真题|抖音的广告系统前后台,该如何测试?

霍格沃兹测试开发学社

测试人生 | 从外行到外包,从手工测试到知名互联大厂测开 这个90后小姐姐是怎么腾飞的?

霍格沃兹测试开发学社

从云原生实战峰会看2022年云原生发展动向

Lily

对话来自韩国 Kakao 的海外贡献者 | 我为什么要为 SeaTunnel 做贡献?

Apache SeaTunnel

测试开发面试真题 | 测试老兵进阶突破,成功挑战大厂 P7 Offer!

霍格沃兹测试开发学社

测试面试 | Java 经典面试题汇总

霍格沃兹测试开发学社

测试面试 | 某个版本/模块问题很多,但上线时间紧迫怎么办?

霍格沃兹测试开发学社

ClickHouse 在海量数据下的应用实践

移动云大数据

Clickhouse

开年见礼!云开发生态激励计划上线,近万元补贴等新年福利请查收

Lily

测试面经 | 从测试螺丝钉到大厂测试开发,三点成长心得和面试经验

霍格沃兹测试开发学社

Apache Kafka 动态配置的原理与应用

移动云大数据

测试面试 | 某互联网大厂测试面试真题,你能回答出多少?

霍格沃兹测试开发学社

测试人生 | 半年涨薪20W入职名企大厂,这个90后妹纸凭什么这么猛?

霍格沃兹测试开发学社

测试人生 | 双非院校、入职某知名电商公司薪资翻倍还有股票奖励,这个90后小姐姐也太飒了吧?

霍格沃兹测试开发学社

开发者个人成长主题征文挑战赛正式启动!说出你的成长故事共谱青春乐章

InfoQ写作社区官方

个人成长 热门活动

测试人生 | 从跨专业手工测试转岗外包,再到 Python 测试开发,跳槽涨薪 85%!

霍格沃兹测试开发学社

测试人生 | 做了低薪运营6年,妹纸靠什么转行拿下 20W 年薪?

霍格沃兹测试开发学社

测试人生 | 半年涨薪10W+,从手工+外包是如何完成蜕变的?

霍格沃兹测试开发学社

测试人生 | 双非学历入职名企大厂还薪资翻倍?

霍格沃兹测试开发学社

测试人生 | 双非院校跨城重新开始,薪资翻了2倍还多,这个90后小姐姐好飒

霍格沃兹测试开发学社

笔记 | 敏捷转型常见误区及避坑指南(文末附PPT)

嘉为蓝鲸

DevOps 研发 敏捷转型 蓝鲸 嘉为

当面试官问你:如何才能带领好团队?

霍格沃兹测试开发学社

测试人生 | 毕业2年,拒绝独角兽入职名企大厂涨薪10万+,这个95后小姐姐好飒

霍格沃兹测试开发学社

测试人生 | 30 而立之年的蜕变,6 个月完成从国企到 BAT 大厂测开的华丽转身

霍格沃兹测试开发学社

测试人生 | 从小团队的业务到独角兽的测开,涨薪超过60%,90后小哥哥凤凰涅槃了

霍格沃兹测试开发学社

测试人生 | 拿到多个 offer 从了一线互联网公司并涨薪70%,90后小哥哥免费分享面试经验~

霍格沃兹测试开发学社

DeepMind揭秘适用于语音和音频合成的深度神经网络:WaveNet_AI&大模型_Dylan Raithel_InfoQ精选文章