写点什么

阿里巴巴发布新一代语音合成技术 KAN-TTS,成本降低 10 倍、周期缩短 3 倍

  • 2019-07-10
  • 本文字数:963 字

    阅读完需:约 3 分钟

阿里巴巴发布新一代语音合成技术KAN-TTS,成本降低10倍、周期缩短3倍

TTS 是语音合成的一种方式,即文字转语音(Text-To-Speech),早在 17 世纪就有法国人研发机械式的说话装置。直到 19 世纪,贝尔实验室对于电子语音合成技术的研究,才开启近代语音合成技术的发展。贝尔实验室在 1939 年制作出第一个电子语音合成器 VODER,是一种利用共振峰原理所制作的合成器。


1960 年,瑞典语言学家 G. Fant 则提出利用线性预测编码技术(LPC)来作为语音合成分析技术,并推动了日后的发展。后来 1980 年代 Moulines E 和 Charpentier F 提出新的语音合成算法 PSOLA,此技术可以合成比较自然的语音。


在 7 月 9 日阿里巴巴的一场分享会上,达摩院语音实验室高级算法专家雷鸣进行了有关语音合成技术的分享,他认为:“我们目前所处的阶段是一个合成语言大变革的阶段,主要的特点是大家都希望能够提供一个非常接近于真人表现的合成语音,可喜的是,语音合成的质量进步很快。”


阿里巴巴发布的“新一代语音合成技术”KAN-TTS(Knowledge-Aware Neural TTS),由达摩院机器智能实验室自主研发。 阿里方面称,当前业界商用系统的合成语音与原始音频录音的接近程度通常在 85%到 90%之间,而基于 KAN-TTS 技术的合成语音可将该数据提高到 97%以上。


据了解,该技术深度融合了目前主流的端到端 TTS 技术和传统 TTS 技术,从多个方面改进了语音合成。



KAN-TTS 的基本框图


传统语音合成定制需要 10 小时以上的数据录制和标注,对录音人和录音环境要求很高。从启动定制到最终交付,项目周期长成本高。


阿里利用 Multi-Speaker Model 与 Speaker-aware Advanced Transfer Learning 相结合的方法,将语音合成定制成本降低 10 倍以上,周期压缩 3 倍以上。也就是说,用 1 小时有效录音数据和不到两个月制作周期,就能完成一次标准 TTS 定制。



构建多发音人语音合成系统的方式


普通用户定制“AI 声音”的门槛更低。阿里方面介绍称:只需手机录音十分钟,就能获得与录制声音高度相似的合成语音。阿里 AI 做到这一点,主要基于自动数据检查、自动标注方法和对海量用户场景的利用。


据了解,阿里已经对外提供开箱即用的 TTS 解决方案,共有通用、客服、童声、英文和方言 5 个场景的 34 种高品质声音供选择。


基于新一代技术,阿里还提高了设备端离线 TTS 的效果。这在超低资源设备端的 TTS 服务中非常有用,比如当人们驾车行驶于信号微弱区域,阿里技术能避免语音导航“掉线”。


2019-07-10 18:1510051
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 293.9 次阅读, 收获喜欢 1305 次。

关注

评论

发布
暂无评论
发现更多内容

下一个时代的船舵,李彦宏握住AI原生应用

脑极体

AI

狂热过后,RPA到底是什么?

金小K

RPA RPA评测 RPAxAI

TiDB 7.1.0 LTS 特性解读丨关于资源管控 (Resource Control) 应该知道的 6 件事

PingCAP

数据库 TiDB

华为“轻松打卡全世界”活动提供一站式出境服务,全球酒店预订85折起

最新动态

Golang微服务框架Kratos应用MQTT消息队列

golang mqtt Kratos #微服务

Golang微服务框架Kratos应用Pulsar消息队列

golang pulsar Kratos #微服务

如何出色的进行“自我介绍”?

王磊

Java java面试

Golang微服务框架Kratos应用RabbitMQ消息队列

golang RabbitMQ Kratos #微服务

Golang微服务框架Kratos应用Kafka消息队列

golang kafka Kratos 消息列队 #微服务

CIIS 2023丨聚焦文档图像处理前沿领域,合合信息AI助力图像处理与内容安全保障

合合技术团队

人工智能 文档 智能 多模态 大模型

选择住宅ip代理还是数据中心代理?

巨量HTTP

代理IP http代理

[文本提取]基于Apache Tika的文本内容提取

alexgaoyh

Java nlp tika 文本提取 内容提取

Linux 爱好者线下沙龙:LLUG 2023 深圳硬核来袭 | 第三站

OpenAnolis小助手

沙龙 龙蜥社区 开源操作系统 LLUG Linux中国

演讲实录:DataFun 垂直开发者社区基于指标平台自主洞察北极星指标

Kyligence

数据分析 指标中台

沉浸式体验与 AI 数智助理一起工作的一天

Kyligence

人工智能 数据分析

IPA文件重签名教程:使用Ipa Guard进行签名和安装到设备的详细步骤

Golang微服务框架Kratos应用RocketMQ消息队列

golang RocketMQ 消息队列 Kratos #微服务

API网关是如何提升API接口安全管控能力的?

不思jo

安全 API

Golang微服务框架Kratos应用NATS消息队列

golang 消息队列 Kratos #微服务

医疗虚拟仿真和虚拟现实有什么区别?哪个更好?

3DCAT实时渲染

虚拟现实 虚拟仿真 实时云渲染

Golang微服务框架Kratos应用NSQ消息队列

golang nsq Kratos #微服务

华为云,让AI算力入山河

脑极体

云计算

低代码平台:构建应用程序的“银弹”

互联网工科生

软件开发 低代码 企业数字化

前后端分离的低代码快速开发框架

树上有只程序猿

前后端分离 低代码开发 JNPF

杭州悦数加入龙蜥社区,共同探索图数据库的未来

OpenAnolis小助手

数据库 开源 操作系统 龙蜥社区 杭州悦数

多模态 多引擎 超融合 新生态!2023亚信科技AntDB数据库8.0产品发布

亚信AntDB数据库

AntDB 国产数据库 AntDB数据库

"开源奥斯卡”认可!天谋科技 IoTDB 企业版荣获 OSCAR 开源尖峰案例开源技术创新(商业产品)奖

Apache IoTDB

使用 Databend 加速 Hive 查询

Databend

C++输入流和输出流介绍

芯动大师

阿里巴巴发布新一代语音合成技术KAN-TTS,成本降低10倍、周期缩短3倍_AI&大模型_陈思_InfoQ精选文章