10 月 23 - 25 日,QCon 上海站即将召开,现在大会已开始正式报名,可以享受 8 折优惠 了解详情
写点什么

DeepMind 揭秘适用于语音和音频合成的深度神经网络:WaveNet

  • 2016-10-20
  • 本文字数:1326 字

    阅读完需:约 4 分钟

谷歌旗下的 DeepMind 公司近日公布了 WaveNet 项目,这是一种全面卷积(Convolutional),基于概率,可自动回归的深度神经网络。根据DeepMind 的介绍,该项目可以用比现有最好的文字转语言( TTS )系统更棒的效果通过音频和声音合成更自然的语音和音乐。

语音合成能力主要源自串接式(Concatenative) TTS,会通过由单一录音者录制的简短语音片段组成的数据库选择语音片段,重新组合并形成语音。这种方式不够灵活,无法轻松地进行调整输出新的声音,如果需要对现有声音的特诊进行较大改变,通常需要彻底重建数据库。

DeepMind 认为,原有模式极大依赖通过一个输入源,或一个录音者生成的大容量音频数据库,WaveNet 依然保留了这种模式,并将其作为一组参数,可根据新的输入结果对原有模式进行修改。这种方法也叫做参数化(Parametric)的TTS 实现,可通过支持参数的模型生成在音调或语调等特征方面有所差异的语音,随后这些语音还可通过模型进行进一步的完善。相比以往的方法使用预先生成的原始音频片段对模型进行训练,WaveNet 的 Phoneme 可调整字词和句子的顺序参数,生成更有意义的词语和句子结构,并可独立于有关声调、声音质量,以及音素语调的参数进行调整。借此 WaveNet 可以生成连续的语言类声音,并通过语言结构为这些声音赋予相关的含义。

“由于这个模型不以文字为条件,因此可以通过更为平滑的方式生成不存在,但类似人类语言的字词,同时在声音语调方面也更真实… 我们发现这个模型还可以吸收语音本身之外其他方面的音频特征,例如可以模仿声学效果和录音质量,以及讲话者的换气和嘴部活动。”

试听者在听过 WaveNet 生成的英文和普通话音频后,认为该系统能生成比最棒的参数化和串接式系统更自然的声音。DeepMind 在论文中详细介绍了这个实验的细节,并补充说:

“第一个试验中我们尝试了自由式的语音生成(不以文字为条件)。我们使用了 CSTR 声音克隆工具包(VCTK)中的英文多讲话者语料(Yamagishi,2012),并通过条件设置让 WaveNet 只关注讲话者。这个条件是通过 One-hot 向量形式以讲话者 ID 的方式提供给模型的。所用数据库包含来自 109 位讲话者,总时长 44 小时的数据… 第二个实验主要针对 TTS。我们使用了谷歌打造北美英文和中文普通话 TTS 系统时使用的同一个单一讲话者语音数据库,北美英文数据库包含 24.6 小时的语音数据,中文普通话数据库包含 34.8 小时的内容,所有内容均由专业的女性演讲者讲述。”

对串接式 TTS、参数化 TTS、WaveNet 以及人类语音音频样本(仅用作控制组)的人类语言自然度进行五分制盲测有了结果。试听者在不知道音频来源的前提下,听过音频样本后为每个样本打分。该论文所用数据集包含针对100 个测试短句给出的超过500 个评分,通过这些评分计算出平均意见得分( MOS )作为最终分数,只有 WaveNet 的自然度评分最接近人类语言的音频样本。

DeepMind 还演示了如何通过 WaveNet 最为核心的“学习型抽象”利用音频训练数据集合成音乐。目前该技术最大的问题主要围绕语音合成技术的长远影响以及一些人所谓的人工智能。但目前还不确定WaveNet 包含哪些核心语言或处理引擎,并且他们尚未提供范例代码。

查看**** 英文原文: DeepMind Unveils WaveNet - A Deep Neural Network for Speech and Audio Synthesis

2016-10-20 19:003634
用户头像

发布了 283 篇内容, 共 118.9 次阅读, 收获喜欢 63 次。

关注

评论

发布
暂无评论
发现更多内容

AE/PR/OFX/达芬奇视频延时闪屏去闪烁插件 Flicker Free for Mac激活版

Rose

仅需一小时,教你用豆包MarsCode 学会图像物体识别

TRAE

程序员 AI 开发 代码 识别工具

Real Glow:图像焕新之光,解锁逼真光影特效的魔法钥匙

Rose

AI赋能低代码平台的潜力:从自动化到个性化的全面解析

天津汇柏科技有限公司

低代码 AI人工智能

ChatGPT插件的开发流程

北京木奇移动技术有限公司

AI智能体 chatGPT插件开发 软件外包公司

如何让硬装设计项目高效推进?从混乱到有序的秘诀

axe

项目管理工具 降本增效 装修项目管理 硬装设计

能源投资工程VS智能驾驶,DolphinScheduler如何当好传统行业与前沿科技的桥梁?

白鲸开源

开源 Apache DolphinScheduler 技术活动 干货分享

手把手教你华为鸿蒙开发之第九节

The Wang

HarmonyOS NEXT

Deep Glow破解版下载 附永久激活码 (AE物理发光特效插件)

Rose

面对不同大小的需求,如何评估研发团队各角色的效能水平?

思码逸研发效能

DevOps 研发效能 研发团队 效能管理

Milvus×OPPO:如何构建更懂你的大模型助手

Zilliz

Embedding OPPO 向量检索 Milvus

(DR 5中文版)Delicious Retouch:人像修图的终极利器,重塑完美容颜

Rose

Sketch Measure for Mac(sketch标注插件) v2.8.1中文激活版

Rose

Milvus 2.5:全文检索上线,标量过滤提速,易用性再突破!

Zilliz

全文检索 Milvus 新版本发布 标量过滤

一种轻量分表方案-MyBatis拦截器分表实践

京东科技开发者

mac电脑怎么彻底清除卸载的软件,苹果电脑卸载软件的实用技巧

阿拉灯神丁

性能优化 CleanMyMac X 卸载软件 应用程序卸载 mac 效率工具

ps阴影插件shadowify for Mac下载安装教程

Rose

手把手教你华为鸿蒙开发之第八节

The Wang

HarmonyOS NEXT

中文汉化版AE插件 optical flares插件(镜头光晕耀斑插件) 附永久许可证

Rose

通义灵码“打工”1年记:写了10亿行代码,服务上万家企业

阿里巴巴云原生

阿里云 云原生

测试开发工程师如何打造高效的质量体系

测试人

软件测试

AI与AE实时交互MG动画制作神器AE脚本 Overlord v1.27激活版 Win/Mac

Rose

产品UIUE行动报告

鲸品堂

企业号 2024年12月PK榜

Taro小程序开发性能优化实践

京东科技开发者

KubeBlocks v0.9.2发布啦!支持容器镜像滚动更新、MySQL支持Jemalloc...快来升级体验更多新功能!

小猿姐

MySQL 数据库 redis 云计算 Kubernetes Serverless

使用Docker构建集成Supervisor的自定义镜像

代码忍者

Dolphinscheduler DAG核心源码剖析

白鲸开源

GitHub 大数据 开源 Apache DolphinScheduler 调度器

软通智慧:鲲鹏原生开发助力 城市治理平台信息查询效率提升17%

极客天地

小红书笔记详情 API 接口:获取、应用与收益全解析

科普小能手

API API 接口 小红书笔记接口 小红书API 小红书笔记详情数据采集

ChatGPT应用的开发流程

北京木奇移动技术有限公司

软件开发 AI应用 AI智能体

DeepMind揭秘适用于语音和音频合成的深度神经网络:WaveNet_AI&大模型_Dylan Raithel_InfoQ精选文章