AICon 上海站|日程100%上线,解锁Al未来! 了解详情
写点什么

阿里巴巴发布新一代语音合成技术 KAN-TTS,成本降低 10 倍、周期缩短 3 倍

  • 2019-07-10
  • 本文字数:963 字

    阅读完需:约 3 分钟

阿里巴巴发布新一代语音合成技术KAN-TTS,成本降低10倍、周期缩短3倍

TTS 是语音合成的一种方式,即文字转语音(Text-To-Speech),早在 17 世纪就有法国人研发机械式的说话装置。直到 19 世纪,贝尔实验室对于电子语音合成技术的研究,才开启近代语音合成技术的发展。贝尔实验室在 1939 年制作出第一个电子语音合成器 VODER,是一种利用共振峰原理所制作的合成器。


1960 年,瑞典语言学家 G. Fant 则提出利用线性预测编码技术(LPC)来作为语音合成分析技术,并推动了日后的发展。后来 1980 年代 Moulines E 和 Charpentier F 提出新的语音合成算法 PSOLA,此技术可以合成比较自然的语音。


在 7 月 9 日阿里巴巴的一场分享会上,达摩院语音实验室高级算法专家雷鸣进行了有关语音合成技术的分享,他认为:“我们目前所处的阶段是一个合成语言大变革的阶段,主要的特点是大家都希望能够提供一个非常接近于真人表现的合成语音,可喜的是,语音合成的质量进步很快。”


阿里巴巴发布的“新一代语音合成技术”KAN-TTS(Knowledge-Aware Neural TTS),由达摩院机器智能实验室自主研发。 阿里方面称,当前业界商用系统的合成语音与原始音频录音的接近程度通常在 85%到 90%之间,而基于 KAN-TTS 技术的合成语音可将该数据提高到 97%以上。


据了解,该技术深度融合了目前主流的端到端 TTS 技术和传统 TTS 技术,从多个方面改进了语音合成。



KAN-TTS 的基本框图


传统语音合成定制需要 10 小时以上的数据录制和标注,对录音人和录音环境要求很高。从启动定制到最终交付,项目周期长成本高。


阿里利用 Multi-Speaker Model 与 Speaker-aware Advanced Transfer Learning 相结合的方法,将语音合成定制成本降低 10 倍以上,周期压缩 3 倍以上。也就是说,用 1 小时有效录音数据和不到两个月制作周期,就能完成一次标准 TTS 定制。



构建多发音人语音合成系统的方式


普通用户定制“AI 声音”的门槛更低。阿里方面介绍称:只需手机录音十分钟,就能获得与录制声音高度相似的合成语音。阿里 AI 做到这一点,主要基于自动数据检查、自动标注方法和对海量用户场景的利用。


据了解,阿里已经对外提供开箱即用的 TTS 解决方案,共有通用、客服、童声、英文和方言 5 个场景的 34 种高品质声音供选择。


基于新一代技术,阿里还提高了设备端离线 TTS 的效果。这在超低资源设备端的 TTS 服务中非常有用,比如当人们驾车行驶于信号微弱区域,阿里技术能避免语音导航“掉线”。


2019-07-10 18:159943
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 289.0 次阅读, 收获喜欢 1303 次。

关注

评论

发布
暂无评论
发现更多内容

华为云亮相QCon2020深圳站,带你体会大厂的云原生玩法与秘诀

华为云开发者联盟

专家 华为云 深圳

Serverless 如何落地?揭秘阿里核心业务大规模落地实现

阿里巴巴云原生

阿里巴巴 阿里云 Serverless 开发者 云原生

云上的移动性能测试平台

移动研发平台EMAS

阿里云 测试 移动研发平台

三分钟看懂新一代.Net Core3.1工作流引擎平台

Philips

敏捷开发 工作流

使用LiteOS Studio图形化查看LiteOS在STM32上运行的奥秘

华为云开发者联盟

LiteOS 脚本 语言

LeetCode题解:515. 在每个树行中找最大值,DFS,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

多国探路数字货币

CECBC

数字货币

海阔天空的游戏出海,HMS生态提供的风帆与通路

脑极体

我哭了!Centos6停止更新只能切换7,哪些习惯也需要切换

996小迁

Java 架构 面试 Centos6

滴滴DoKit-功能介绍之文件同步助手

工具 文件 DoKit

一周信创舆情观察(11.30~12.6)

统小信uos

区块链加速产业革命,打造畜禽养殖业发展新途径

CECBC

养殖业

如何判断一个区块链项目是否优质?

CECBC

开源

训练营第八周总结

大脸猫

极客大学架构师训练营

【得物技术】MySQL多表关联同步到ES的实践

得物技术

MySQL 原理 配置 ES 多表join

DolphinDB与Elasticserach在金融数据集上的性能对比测试

DolphinDB

数据处理 金融 时序数据库 tsdb DolphinDB

话题讨论 | 程序员自己电脑中毒是甚么体验?

xcbeyond

话题讨论

我哭了!Centos6停止更新只能切换7,哪些习惯也需要切换

小Q

Java Linux centos 学习 面试

让垃圾分类开发“极快致简”的好物件,零基础的开发小白也能轻松驾驭它!

华为云开发者联盟

数据 分类

装机必备:借用IDM实现百度云高速下载

懒得勤快

最简单的Go Dockerfile编写姿势,没有之一!

万俊峰Kevin

Docker Dockerfile Go 语言

分布式事务框架 seata-golang 通信模型详解

阿里巴巴云原生

数据库 微服务 云原生 Go 语言

跨专业零基础校招拿到网易18K*13薪Java岗offer全过程复盘总结

Java架构师迁哥

官方活动 | 盘点2020有奖征文

InfoQ写作社区官方

盘点2020 热门活动

《迅雷链精品课》第十二课:PoW共识算法

迅雷链

区块链

构师训练营第八周学习笔记

李日盛

笔记

Spark-submit执行流程,了解一下

华为云开发者联盟

spark 技术 流程

什么是802.11ax(Wi-Fi 6)

动态高并发时为什么推荐ReentrantLock而不是Synchronized?

moon聊技术

JVM 并发 synchronized ReentrantLock 锁升级

训练营第八周作业

大脸猫

极客大学架构师训练营

开除AI伦理学家,谷歌如何从“不作恶”到“不宽容”?

脑极体

阿里巴巴发布新一代语音合成技术KAN-TTS,成本降低10倍、周期缩短3倍_AI&大模型_陈思_InfoQ精选文章