DeepMind揭秘适用于语音和音频合成的深度神经网络：WaveNet_AI&大模型_Dylan Raithel_InfoQ精选文章



 写点什么

登录/注册

谷歌旗下的 DeepMind 公司近日公布了 WaveNet 项目，这是一种全面卷积（Convolutional），基于概率，可自动回归的深度神经网络。根据DeepMind 的介绍，该项目可以用比现有最好的文字转语言（ TTS ）系统更棒的效果通过音频和声音合成更自然的语音和音乐。

语音合成能力主要源自串接式（Concatenative） TTS，会通过由单一录音者录制的简短语音片段组成的数据库选择语音片段，重新组合并形成语音。这种方式不够灵活，无法轻松地进行调整输出新的声音，如果需要对现有声音的特诊进行较大改变，通常需要彻底重建数据库。

DeepMind 认为，原有模式极大依赖通过一个输入源，或一个录音者生成的大容量音频数据库，WaveNet 依然保留了这种模式，并将其作为一组参数，可根据新的输入结果对原有模式进行修改。这种方法也叫做参数化（Parametric）的TTS 实现，可通过支持参数的模型生成在音调或语调等特征方面有所差异的语音，随后这些语音还可通过模型进行进一步的完善。相比以往的方法使用预先生成的原始音频片段对模型进行训练，WaveNet 的 Phoneme 可调整字词和句子的顺序参数，生成更有意义的词语和句子结构，并可独立于有关声调、声音质量，以及音素语调的参数进行调整。借此 WaveNet 可以生成连续的语言类声音，并通过语言结构为这些声音赋予相关的含义。

“由于这个模型不以文字为条件，因此可以通过更为平滑的方式生成不存在，但类似人类语言的字词，同时在声音语调方面也更真实… 我们发现这个模型还可以吸收语音本身之外其他方面的音频特征，例如可以模仿声学效果和录音质量，以及讲话者的换气和嘴部活动。”

试听者在听过 WaveNet 生成的英文和普通话音频后，认为该系统能生成比最棒的参数化和串接式系统更自然的声音。DeepMind 在论文中详细介绍了这个实验的细节，并补充说：

“第一个试验中我们尝试了自由式的语音生成（不以文字为条件）。我们使用了 CSTR 声音克隆工具包（VCTK）中的英文多讲话者语料（Yamagishi，2012），并通过条件设置让 WaveNet 只关注讲话者。这个条件是通过 One-hot 向量形式以讲话者 ID 的方式提供给模型的。所用数据库包含来自 109 位讲话者，总时长 44 小时的数据… 第二个实验主要针对 TTS。我们使用了谷歌打造北美英文和中文普通话 TTS 系统时使用的同一个单一讲话者语音数据库，北美英文数据库包含 24.6 小时的语音数据，中文普通话数据库包含 34.8 小时的内容，所有内容均由专业的女性演讲者讲述。”

对串接式 TTS、参数化 TTS、WaveNet 以及人类语音音频样本（仅用作控制组）的人类语言自然度进行五分制盲测有了结果。试听者在不知道音频来源的前提下，听过音频样本后为每个样本打分。该论文所用数据集包含针对100 个测试短句给出的超过500 个评分，通过这些评分计算出平均意见得分（ MOS ）作为最终分数，只有 WaveNet 的自然度评分最接近人类语言的音频样本。

DeepMind 还演示了如何通过 WaveNet 最为核心的“学习型抽象”利用音频训练数据集合成音乐。目前该技术最大的问题主要围绕语音合成技术的长远影响以及一些人所谓的人工智能。但目前还不确定WaveNet 包含哪些核心语言或处理引擎，并且他们尚未提供范例代码。

查看**** 英文原文： DeepMind Unveils WaveNet - A Deep Neural Network for Speech and Audio Synthesis

评论

发布

暂无评论

THREE.JS实现炫酷的3D简历网站

前端后端 3D ThreeJS 三周年连更

华为云桌面随需而至，让办公数字化触手可及

平平无奇爱好科技

华为云CDN赋能企业数字化转型

Matlab实现粒子群算法

三周年连更

macOS 13 Ventura (苹果最新系统) v13.3.1正式版

macOS Ventura 苹果系统下载 Mac最新系统

【直播回顾】数字化转型成为银行业发展的关键（下）

数字化转型银行

Spring Boot之log4j2基础使用入门|超级详细，建议收藏

Spring Boot log4j2 三周年连更

微服务 SpringBoot 整合 Redis GEO 实现附近商户功能

java； Redis 核心技术与实战三周年连更

从源码全面解析 ArrayBlockingQueue 的来龙去脉

Java 源码 ArrayBlockingQueue

PHP 中数组是如何灵活支持多数据类型的？

架构精进之路

php 数组后端三周年连更

华为云大数据BI解决方案，助力企业数字化运营

平平无奇爱好科技

灵活高效，华为云桌面实现随时随地办公

Unity 之关于停止协程的五种方式解析

Unity 三周年连更

Oracle apex社区教程 PLSQL常用时间函数

Downie下载vip会员视频教程？Downie4最新许可证

Downie下载 Downie使用教程 Downie 4许可证 Mac视频下载器 Downie破解版

面试官：介绍一下什么是缓存雪崩、缓存击穿、缓存穿透？

Java redis 缓存穿透缓存击穿缓存雪崩

Oracle Apex学习之系统变量

oracle ebs oracle apex

华为云桌面——云端上“最卷的云”

平平无奇爱好科技

复旦MOSS大模型开源了「中国版ChatGPT」，Github和Hugging Face同时上线

三周年连更

AlDente免费版,限制 Macbook 最大充电量,保护电池健康

AlDente Mac版 AlDente macOS 充电量阈值

Linux面试必备

袁袁袁袁满

三周年连更

NFT加密钱包交易系统开发搭建技术

薇電13242772558

华为云桌面，如何为企业构建新型工作方式

平平无奇爱好科技

摆脱终端束缚，华为云桌面助力企业数字化转型

平平无奇爱好科技

Shell脚本实战：Consul 服务注册和注销的最佳实践

小毛驴的烂笔头

Qz学算法-数据结构篇(排序算法--基数、总结)

数据结构三周年连更

photoshop 2023【存储为窗口显示空白、黑屏】解决方法

ps 2023储存黑屏 Photoshop 2023

浅谈华为云CDN在互联网领域的应用场景落地

达芬奇18补丁版下载支持m1/m2/intel/win

DaVinci Resolve 18 达芬奇18破解版视频剪辑调色软件

跨平台应用开发进阶(五十五)：uni-app 获取设备信息及 APP 报无相应权限问题分析及解决

No Silver Bullet

uni-app 跨平台应用开发三周年连更问题分析及解决设备信息

华为云CDN加速，赋能企业数字化转型升级