写点什么

百度技术沙龙第 52 期回顾:百度语音合成(含资料下载)

  • 2014-07-28
  • 本文字数:3049 字

    阅读完需:约 10 分钟

2014 年 7 月 26 日,在由 @百度主办、 @InfoQ 负责策划组织和实施的第 52 期百度技术沙龙活动上,来自百度语音技术部的李秀林,和中国科学院自动化研究所研究员陶建华,分享了各自在语音合成领域的经验。

本次分享的话题分别是“ 拼接语音合成——折衷的艺术”和“ 语音合成现状与未来”。本文将对这两个主题分享做下简单的回顾,同时提供相关资料的下载。

主题一:拼接语音合成——折衷的艺术(下载讲稿

百度的李秀林首先给大家介绍了语音合成技术的发展,对于语音合成技术,有些朋友可能还不是特别了解,语音合成又叫文语转换,是将文本转换成语音的一种技术。实际上在日常生活中,可能我们已经用到很多语音合成产品,李秀林举例说到:比如我们开车的时候用的汽车导航,里面就是内嵌了语音合成系统。我们所用的语音助手可以跟手机对于对话查询信息,那里面有了语音识别,也有语音合成。其他的像读书里面都不离开语音合成,只是很多时候我们可能真的没有感受到它是一个机械合成出来的铃音。

随后,李秀林给大家介绍语音合成部分,可以划分成三个主要阶段,一个是机械式的语音合成,第二个阶段是电子式语音合成,第三个阶段是计算机语音合成。

机械式语音合成早在1846 年就有人把它研究出来,它是利用一些键,有14 个按键,每个按键对应一个因素,可以产生类似的声音。如果把这些组合起来可以表达一定的意思,有点像人说话,但是这种相似度还是比较差的。

在这之后大概过了将近一个世纪,电子技术迅速发展,自然而然就产生了电子式语音合成器,相对机械式语音合成器,它的结构主要是部件的不同,它的调整能力也要比机械的更灵活。

八十年代之后,计算机的技术发展存储空间和运算速度都不再是瓶颈,语音技术的发展也日新月异。现在是语音技术都算是第三代,但是它的表现有多种多样,所以说有些不同的分类方法。

了解到语音合成的技术发展后,如何判断一个语音合成效果呢?李秀林介绍到:一般采用主观评测的方法,主观评测方法又有两种,一种是MOS 评测,一种是ABX 评测。一般来说如果达到3 分左右,那么大体上是可以在一些特定的情况下应用,如果达到4 分,就认为这个是可以比较好的推广。目前来看,我们语音合成技术基本上可以达到4 分或者是4 分多一点。

对于ABX 评测,把两个不同的系统分别合成出两批样本,样本两两对比,好的得2 分,较差的得0 分,这样的话如果两个相当各得1 分,最后把分值累积以后,得分比较高我们认为这个系统胜出。有了评测的方法,我们可以反过头来用评测的方法来看技术的进步。

最后,对于语音合成技术的展望,李秀林认为有三个方面是重点,一个是机器学习,它对识别和合成可能有一定的推广作用。另外是个性化,现在说个性化还比较远,比如说你听惯了这个厂商的声音和那个厂商的声音,你都不想听了,你想不想听你孩子、爱人和朋友的声音,我觉得这将来是一个广阔的空间。但是目前的技术还有一定需要突破的地方。还有一个表现力情感方面,让他不再平淡,这个也是需要重点突破的方向。

主题二:语音合成现状与未来(下载讲稿

中国科学院自动化研究所研究员陶建华从事语音合成这个领域已经有20 多年了,从1993 年一直研究到现在,基本上经历了从语音合成发展整个的历程。

首先,陶建华介绍了典型的拼接系统的构成,实际上它就是从原来录的音当中找到合适的声音然后放出来,从原来的语音当中找到一个个小的片断,然后拼接起来。如果你仅仅只是简单的把这样的声音截取出来,它的声音是不连续的。于是在拼接语音合成里面要做大量的算法,我们来看一个连续语句如果有7 个音节,可以理解为汉字,它每一个汉字都会有N 个侯选,这来自于你录的声音当中。我们希望在这N 个侯选里面,比如说这里面我找最优的路径,把侯选的东西拼起来,然后品成完整的,最后会成为一个连续的语音,语音合成系统它实际上是这么一个概念,它并不是简单的拼接。

陶建华提到拼接系统它有很多的优点,它也有缺点。比如说拼接系统它的音质非常高,很接近人原始的声音,因为它的音质是没有损伤的,所以它的声音音质很高,听起来更接近于原声,他需要大量的数据,同时他的声音在拼接的时候多少会出现一些不连贯的地方。

随后,陶建华提到了语音合成的个性化问题,从目前来看,其实主要是两种方法能够实现。一种方法就是重新录一批数据,重新训练,这个方法无论是拼接系统,还是参数合成系统,同样适用,只要是一个新的数据,张三是张三的数据,李四是李四的数据。还有一种就是我的数据量并不够,自适应目前为止比较成熟的系统,只能基于参数获得系统,用深度神经网络和其他的方法同样可以使用。

当然还有自适应的方法,本质上来说,我们先训一个平均的基于参数统计的合成系统,针对不同的说话人之间做自适应,比如说在语音识别里面常用的最大似然的方法。当然也有人说我用深度神经网络可不可以做,当然可以做,深度神经网络同样也可以用来训练不同人的声音。

最后,陶建华总结到:其实语音合成从参数合成系统到拼接系统,再从拼接系统回大参数系统,从参数系统大家又开始重视拼接系统。我们看到技术发展的趋势,它并不是简单的回溯,大家每一次有不同重视点的时候,它会带上新的研究进展。在未来几年当中,大家随着这个技术的不断往后延伸,会把现在技术最新的结果结合我们所谓个性化、口语化,以及结合一些以不同的领域当中要求,把它进一步的深化来推动语音合成进一步的往下走。

OpenSpace(开放式讨论环节)

为了促进参会者与我们每期的嘉宾以及讲师近距离交流,深入探讨在演讲过程中的疑问,本次活动依然设置了 Open Space(开放式讨论)环节。

在 Open Space 的总结环节,两位话题小组长分别对讨论的内容进行了总结。

李秀林:刚刚很多朋友在问:如果我把我的声音上传会怎么样?简单总结一下:只要通过通电话的声音或者跟别人聊天的声音,只要将来语音合成技术做得比较成熟,我们会开放接口,允许大家上传,定制自己的声音。这也是我们的技术愿景。

陶建华:从刚来的提问中,可以发现大家对个性化、口语化的声音处理方面比较感兴趣。个性化的声音在现在的应用角度来说,还需要一些专业人士来做,从算法级别上来说,虽然在少量数据里,不能完全模拟比较逼真的声音,但是这个技术的发展速度比以前要快很多,我相信,我们在不远的将来就能真的把这样的技术应用得更好!

会后,一些参会者也通过微信分享了他们的参会感受:

@李习华:语音识别,理解,合成总体来说是语音智能,需要和其它的应用需求结合起来。个人认为语音智能技术已经很成熟了,需要的是应用场景。

@丛鹏宇:用过几个安卓的读书软件,基本都是用的盛大的听听中心,合成质量还不错,百度的还没见到,很是期待。

@草之木:语音转换需不需要以文字作为中介,例如刚才的女转男?

@灵丫头:有个技术以外的问题:文字、图片、语音这三个信息载体都可以编辑和模拟个性化,那当技术水平足够高的时候,人工智能的时代是否到来?而模拟绝对逼真的时候,你的那个她还是那个她吗?

有关百度技术沙龙的更多信息,可以通过新浪微博关注 @百度技术沙龙,或者关注 InfoQ 官方微信:infoqchina,InfoQ 上也总结了过往所有百度技术沙龙的演讲视频和资料等,感兴趣的读者可以直接浏览内容

特别提示:第53 期百度技术沙龙将在8 月16 日在车库咖啡举行,主题为跨界的“基于大数据的预测实践” ,欢迎关注 @InfoQ @百度技术沙龙获取后续的活动信息。

给 InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2014-07-28 07:212696
用户头像
Kitty 极客邦科技会议主编

发布了 55 篇内容, 共 41.7 次阅读, 收获喜欢 98 次。

关注

评论

发布
暂无评论
发现更多内容

怎么用云手机来做TikTok矩阵养号?

Ogcloud

云手机 海外云手机 tiktok云手机 云手机海外版 tiktok运营

AI手机,走入小径分岔的花园

脑极体

AI

国产 Web 组态软件 TopStack V5.0 发布

图扑物联

工业物联网 web组态 轻量化 组态编辑器 工业组态软件

亚马逊AI选择各种商品的最佳包装方式,节省大量包装材料

算AI

人工智能 深度学习 AI

数据统一高效管理 HashData支撑“数智石油”高质量发展

酷克数据HashData

《containerd 系列》一文了解 containerd 中的镜像加解密

公众号:云原生Serverless

Docker 云原生 ,docker Docker 镜像 Containerd

《containerd 系列》一文读懂 containerd 中的 NRI 机制

公众号:云原生Serverless

Docker Kubernetes 容器技术 Containerd NRI

量化合约/合约量化系统开发运营版/成熟技术/源码案例

系统开发咨询1357O98O718

抖音商单信息通过ETL工具快速同步

RestCloud

数据处理 抖音 数据同步 ETL

构建高效的商品计划系统:为品牌增长注入新动力

第七在线

《containerd 系列》一文了解 containerd 中的 snapshot

公众号:云原生Serverless

Kubernetes 云原生 容器技术 ,docker Containerd

京东JD商品详情API返回值全面解析

技术冰糖葫芦

api 货币化 API 接口 API 文档 pinduoduo API

重庆兴农担保集团携手嘉为蓝鲸,锻造运维能力底座,精益信息化管理

嘉为蓝鲸

IT运维 自动化运维 嘉为蓝鲸

初级Go工程师训练营毕业总结

想吃烤肉!

总结 心得体会

腾讯会议天籁实验室两项研究成果获深圳人工智能奖

极客天地

测试开发名企定向培训训练营即将开营,限时优惠进行中,手把手带你快速提升核心竞争力

测吧(北京)科技有限公司

测试

如何制作个性又美观的二维码?自定义Logo、样式,还能一键复用

草料二维码

二维码 二维码生成 草料二维码 二维码美化

金融案例:统一查询方案助力数据治理与分析应用更高效、更安全

袋鼠云数栈

大数据 数据分析 数字化转型 金融 金融解决方案

开放签:引领中小微企业步入电子签章普惠时代

开放签开源电子签章

电子合同 电子签章 开放签

实战干货|Spark 在袋鼠云数栈的深度探索与实践

袋鼠云数栈

spark Spark 源码 spark SQL 离线开发 大数据计算引擎

游戏发行困境及OgGame云游戏解决方案简述

Ogcloud

游戏 云游戏 云游戏发行 云游戏平台 游戏云化

《2023网信自主创新调研报告》正式发布,云起无垠连年参编

云起无垠

鸟瞰图技术重塑大屏视觉体验:点量云流创新应用

点量实时云渲染

云渲染 虚拟现实 实时云渲染 大屏展示 鸟瞰图

测试开发名企定向训练营即将启动,限时优惠火热进行中!

霍格沃兹测试开发学社

百度技术沙龙第52期回顾:百度语音合成(含资料下载)_语言 & 开发_Kitty_InfoQ精选文章