阿里云「飞天发布时刻」2024来啦!新产品、新特性、新能力、新方案,等你来探~ 了解详情
写点什么

DeepMind 揭秘适用于语音和音频合成的深度神经网络:WaveNet

  • 2016-10-20
  • 本文字数:1326 字

    阅读完需:约 4 分钟

谷歌旗下的 DeepMind 公司近日公布了 WaveNet 项目,这是一种全面卷积(Convolutional),基于概率,可自动回归的深度神经网络。根据DeepMind 的介绍,该项目可以用比现有最好的文字转语言( TTS )系统更棒的效果通过音频和声音合成更自然的语音和音乐。

语音合成能力主要源自串接式(Concatenative) TTS,会通过由单一录音者录制的简短语音片段组成的数据库选择语音片段,重新组合并形成语音。这种方式不够灵活,无法轻松地进行调整输出新的声音,如果需要对现有声音的特诊进行较大改变,通常需要彻底重建数据库。

DeepMind 认为,原有模式极大依赖通过一个输入源,或一个录音者生成的大容量音频数据库,WaveNet 依然保留了这种模式,并将其作为一组参数,可根据新的输入结果对原有模式进行修改。这种方法也叫做参数化(Parametric)的TTS 实现,可通过支持参数的模型生成在音调或语调等特征方面有所差异的语音,随后这些语音还可通过模型进行进一步的完善。相比以往的方法使用预先生成的原始音频片段对模型进行训练,WaveNet 的 Phoneme 可调整字词和句子的顺序参数,生成更有意义的词语和句子结构,并可独立于有关声调、声音质量,以及音素语调的参数进行调整。借此 WaveNet 可以生成连续的语言类声音,并通过语言结构为这些声音赋予相关的含义。

“由于这个模型不以文字为条件,因此可以通过更为平滑的方式生成不存在,但类似人类语言的字词,同时在声音语调方面也更真实… 我们发现这个模型还可以吸收语音本身之外其他方面的音频特征,例如可以模仿声学效果和录音质量,以及讲话者的换气和嘴部活动。”

试听者在听过 WaveNet 生成的英文和普通话音频后,认为该系统能生成比最棒的参数化和串接式系统更自然的声音。DeepMind 在论文中详细介绍了这个实验的细节,并补充说:

“第一个试验中我们尝试了自由式的语音生成(不以文字为条件)。我们使用了 CSTR 声音克隆工具包(VCTK)中的英文多讲话者语料(Yamagishi,2012),并通过条件设置让 WaveNet 只关注讲话者。这个条件是通过 One-hot 向量形式以讲话者 ID 的方式提供给模型的。所用数据库包含来自 109 位讲话者,总时长 44 小时的数据… 第二个实验主要针对 TTS。我们使用了谷歌打造北美英文和中文普通话 TTS 系统时使用的同一个单一讲话者语音数据库,北美英文数据库包含 24.6 小时的语音数据,中文普通话数据库包含 34.8 小时的内容,所有内容均由专业的女性演讲者讲述。”

对串接式 TTS、参数化 TTS、WaveNet 以及人类语音音频样本(仅用作控制组)的人类语言自然度进行五分制盲测有了结果。试听者在不知道音频来源的前提下,听过音频样本后为每个样本打分。该论文所用数据集包含针对100 个测试短句给出的超过500 个评分,通过这些评分计算出平均意见得分( MOS )作为最终分数,只有 WaveNet 的自然度评分最接近人类语言的音频样本。

DeepMind 还演示了如何通过 WaveNet 最为核心的“学习型抽象”利用音频训练数据集合成音乐。目前该技术最大的问题主要围绕语音合成技术的长远影响以及一些人所谓的人工智能。但目前还不确定WaveNet 包含哪些核心语言或处理引擎,并且他们尚未提供范例代码。

查看**** 英文原文: DeepMind Unveils WaveNet - A Deep Neural Network for Speech and Audio Synthesis

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2016-10-20 19:002870
用户头像

发布了 283 篇内容, 共 102.1 次阅读, 收获喜欢 61 次。

关注

评论

发布
暂无评论
发现更多内容

麒麟v10上部署TiDBv5.1.2生产环境的最佳实践

TiDB 社区干货传送门

实践案例 安装 & 部署

Spring Cloud源码分析之Eureka篇第八章:服务注册名称的来历

程序员欣宸

Java spring SpringCloud Eureka 7月月更

作用域与作用域链

是乃德也是Ned

JavaScript 前端 7月月更

js对象的key到底加不加引号?

南极一块修炼千年的大冰块

7月月更

百花齐放的家居行业联盟,三翼鸟率先撬动三个赛点

脑极体

iOS中的多态

NewBoy

ios 前端 移动端 iOS 知识体系 7月月更

Python+JS逆向哪里多?必然是登录逻辑,投资界登录pwd参数解析

梦想橡皮擦

Python 7月月更

CSS 中 ::before 和 ::after 伪元素的几个实际用途

南城FE

CSS 前端 伪元素 7月月更

一站式 DevOps 平台,让开发大不同

SoFlu软件机器人

面试突击64:了解 HTTP 协议吗?

王磊

Java 面试题

利用ECS服务器搭建安防视频监控平台

DS小龙哥

7月月更

阿里云机器学习平台PAI与华东师范大学论文入选SIGIR 2022

阿里云大数据AI技术

Transformer 机器学习/深度学习

不习惯的Vue3起步三 の computed和watch

空城机

vue3.2 7月月更

MFC|自绘Static控件

中国好公民st

c++ 7月月更

CSS Houdini:用浏览器引擎实现高级CSS效果

vivo互联网技术

CSS 前端 引擎 css动画

更贴心、更好学的Python自动化办公教程!

博文视点Broadview

打造“拉动式”企业培训管理方案,释放人才潜能

明道云

Python|数据可视化——超星学习通助手后台数据的可视化处理

AXYZdong

Python 7月月更

低代码实现探索(四十四)检查器待研究

零道云-混合式低代码平台

tidb-dm报警DM_sync_process_exists_with_error排查

TiDB 社区干货传送门

故障排查/诊断

文盘Rust -- 给程序加个日志

TiDB 社区干货传送门

开发语言

Qt | 显示网络图片 QNetworkAccessManager

YOLO.

网络 图片 qt 7月月更

【C语言】进阶指针Four

謓泽

7月月更

羊城“论剑”!大湾区百家AI企业共话如何打牢人工智能“长链”的发展根基

Geek_2d6073

双目立体匹配之代价聚合

秃头小苏

7月月更

ORACLE进阶(十三)using实现简化连接查询

No Silver Bullet

oracle 7月月更 using

滴-EventBus快速使用介绍-新手考驾照

芝麻粒儿

android EventBus 7月月更

微服务项目中,Spring Security 比 Shiro 强在哪?

冉然学Java

编程 微服务架构 spring security Java’

使用Gitlab Jenkins Docker建立CI部署方案

沃德

程序员 jenkins 7月月更

浅入浅出Mybatis(一)

ES_her0

7月月更

Git .ignore 文件规则不生效

攻城狮杰森

git IDEA 协同开发 7月月更

DeepMind揭秘适用于语音和音频合成的深度神经网络:WaveNet_AI&大模型_Dylan Raithel_InfoQ精选文章