写点什么

DeepMind 揭秘适用于语音和音频合成的深度神经网络:WaveNet

  • 2016-10-20
  • 本文字数:1326 字

    阅读完需:约 4 分钟

谷歌旗下的 DeepMind 公司近日公布了 WaveNet 项目,这是一种全面卷积(Convolutional),基于概率,可自动回归的深度神经网络。根据DeepMind 的介绍,该项目可以用比现有最好的文字转语言( TTS )系统更棒的效果通过音频和声音合成更自然的语音和音乐。

语音合成能力主要源自串接式(Concatenative) TTS,会通过由单一录音者录制的简短语音片段组成的数据库选择语音片段,重新组合并形成语音。这种方式不够灵活,无法轻松地进行调整输出新的声音,如果需要对现有声音的特诊进行较大改变,通常需要彻底重建数据库。

DeepMind 认为,原有模式极大依赖通过一个输入源,或一个录音者生成的大容量音频数据库,WaveNet 依然保留了这种模式,并将其作为一组参数,可根据新的输入结果对原有模式进行修改。这种方法也叫做参数化(Parametric)的TTS 实现,可通过支持参数的模型生成在音调或语调等特征方面有所差异的语音,随后这些语音还可通过模型进行进一步的完善。相比以往的方法使用预先生成的原始音频片段对模型进行训练,WaveNet 的 Phoneme 可调整字词和句子的顺序参数,生成更有意义的词语和句子结构,并可独立于有关声调、声音质量,以及音素语调的参数进行调整。借此 WaveNet 可以生成连续的语言类声音,并通过语言结构为这些声音赋予相关的含义。

“由于这个模型不以文字为条件,因此可以通过更为平滑的方式生成不存在,但类似人类语言的字词,同时在声音语调方面也更真实… 我们发现这个模型还可以吸收语音本身之外其他方面的音频特征,例如可以模仿声学效果和录音质量,以及讲话者的换气和嘴部活动。”

试听者在听过 WaveNet 生成的英文和普通话音频后,认为该系统能生成比最棒的参数化和串接式系统更自然的声音。DeepMind 在论文中详细介绍了这个实验的细节,并补充说:

“第一个试验中我们尝试了自由式的语音生成(不以文字为条件)。我们使用了 CSTR 声音克隆工具包(VCTK)中的英文多讲话者语料(Yamagishi,2012),并通过条件设置让 WaveNet 只关注讲话者。这个条件是通过 One-hot 向量形式以讲话者 ID 的方式提供给模型的。所用数据库包含来自 109 位讲话者,总时长 44 小时的数据… 第二个实验主要针对 TTS。我们使用了谷歌打造北美英文和中文普通话 TTS 系统时使用的同一个单一讲话者语音数据库,北美英文数据库包含 24.6 小时的语音数据,中文普通话数据库包含 34.8 小时的内容,所有内容均由专业的女性演讲者讲述。”

对串接式 TTS、参数化 TTS、WaveNet 以及人类语音音频样本(仅用作控制组)的人类语言自然度进行五分制盲测有了结果。试听者在不知道音频来源的前提下,听过音频样本后为每个样本打分。该论文所用数据集包含针对100 个测试短句给出的超过500 个评分,通过这些评分计算出平均意见得分( MOS )作为最终分数,只有 WaveNet 的自然度评分最接近人类语言的音频样本。

DeepMind 还演示了如何通过 WaveNet 最为核心的“学习型抽象”利用音频训练数据集合成音乐。目前该技术最大的问题主要围绕语音合成技术的长远影响以及一些人所谓的人工智能。但目前还不确定WaveNet 包含哪些核心语言或处理引擎,并且他们尚未提供范例代码。

查看**** 英文原文: DeepMind Unveils WaveNet - A Deep Neural Network for Speech and Audio Synthesis

2016-10-20 19:003771
用户头像

发布了 283 篇内容, 共 122.3 次阅读, 收获喜欢 63 次。

关注

评论

发布
暂无评论
发现更多内容

质量基础设施一站式服务平台建设,检验检测系统平台开发搭建

电微13828808271

使用kubernetes,你真的降本了吗

Geek_cd6rkj

Docker Kubernetes 云原生 成本治理 提效降本

云原生监控高可用集群 Thanos 架构剖析 | 内容合集

耳东@Erdong

内容合集 签约计划第二季

CSS之选择器(七):empty

Augus

CSS 12月日更

Linux一学就会之Linux计划任务与日志的管理

学神来啦

Linux centos 运维 SSH linux云计算

企业数字化的4个痛点,低代码平台如何解决?

J2PaaS低代码平台

低代码 数字化 低代码平台

TDengine典型用户案例|内容合集

TDengine

tdengine 时序数据库 技术专题合集

黑客进行网络欺骗攻击的手段有哪些?

喀拉峻

黑客 网络安全 安全

Rainbond 5.5 发布,支持Istio和扩展第三方Service Mesh框架

北京好雨科技有限公司

istio PaaS rainbond

聚势聚能,共擎共飞 PKS安全先进计算2021生态大会将启

InfoQ 天津

14. 《重学JAVA》-- 内部类

杨鹏Geek

Java 25 周年 28天写作 12月日更

RESAR 性能工程:一个性能项目真正体现价值的方式

zuozewei

内容合集 签约计划第二季

公安合成作战平台建设解决方案,情指勤一体化合成作战系统搭建

电微13828808271

公安情报研判分析系统开发,情指勤一体化实战平台

电微13828808271

【实战】网络安全学习:内网渗透实例

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 内网渗透

RocketMQ和Kafka的差异对比

编程江湖

大数据

埃文科技荣获“郑州市企业技术中心”

郑州埃文科技

埃文科技 ip技术 企业技术中心

西南林业大学:用宜搭打造智慧校园,节省百万费用

一只大光圈

钉钉 低代码 数字化 高校 钉钉宜搭

基于社交网络的客户智能 ( AI ) 推荐系统研究

索信达控股

推荐系统 推荐算法 个性化推荐

低代码如何让中小型企业蓬勃发展?

低代码小观

低代码 企业管理系统 低代码平台 中小企业

利用Java反射处理private变量

FunTester

Java 工具 反射 Groovy FunTester

从0开始学VUE - 运行第一个VUE项目

恒生LIGHT云社区

JavaScript node.js Vue 前端

【量化】用数据验证巴菲特推荐的指数定投的收益真相

恒生LIGHT云社区

数据 金融科技 量化投资 量化

「Spark从精通到重新入门(二)」Spark中不可不知的动态资源分配

尔达Erda

大数据 spark 程序员 云原生 心得

开发者故事|朝九晚六大小周,我就是快乐的技术人

尔达Erda

程序员 云原生 经验分享 成长笔记 思考路径

自身的强大,无惧任何威胁!

Tiger

28天写作

Istio在Rainbond Service Mesh体系下的落地实践

北京好雨科技有限公司

istio PaaS rainbond

常见序列化算法学习笔记一

风翱

序列化 12月日更

DotNet项目利用拦截器记录访问日志

为自己带盐

日志 dotnet 28天写作 12月日更

哪些企业需要做等保测评?快速过等保测评用什么堡垒机好呢?

行云管家

网络安全 等保 等保测评 等保2.0

英特尔深耕元宇宙算力技术,剑指开“元”盛世

科技新消息

DeepMind揭秘适用于语音和音频合成的深度神经网络:WaveNet_AI&大模型_Dylan Raithel_InfoQ精选文章