写点什么

阿里巴巴发布新一代语音合成技术 KAN-TTS,成本降低 10 倍、周期缩短 3 倍

  • 2019-07-10
  • 本文字数:963 字

    阅读完需:约 3 分钟

阿里巴巴发布新一代语音合成技术KAN-TTS,成本降低10倍、周期缩短3倍

TTS 是语音合成的一种方式,即文字转语音(Text-To-Speech),早在 17 世纪就有法国人研发机械式的说话装置。直到 19 世纪,贝尔实验室对于电子语音合成技术的研究,才开启近代语音合成技术的发展。贝尔实验室在 1939 年制作出第一个电子语音合成器 VODER,是一种利用共振峰原理所制作的合成器。


1960 年,瑞典语言学家 G. Fant 则提出利用线性预测编码技术(LPC)来作为语音合成分析技术,并推动了日后的发展。后来 1980 年代 Moulines E 和 Charpentier F 提出新的语音合成算法 PSOLA,此技术可以合成比较自然的语音。


在 7 月 9 日阿里巴巴的一场分享会上,达摩院语音实验室高级算法专家雷鸣进行了有关语音合成技术的分享,他认为:“我们目前所处的阶段是一个合成语言大变革的阶段,主要的特点是大家都希望能够提供一个非常接近于真人表现的合成语音,可喜的是,语音合成的质量进步很快。”


阿里巴巴发布的“新一代语音合成技术”KAN-TTS(Knowledge-Aware Neural TTS),由达摩院机器智能实验室自主研发。 阿里方面称,当前业界商用系统的合成语音与原始音频录音的接近程度通常在 85%到 90%之间,而基于 KAN-TTS 技术的合成语音可将该数据提高到 97%以上。


据了解,该技术深度融合了目前主流的端到端 TTS 技术和传统 TTS 技术,从多个方面改进了语音合成。



KAN-TTS 的基本框图


传统语音合成定制需要 10 小时以上的数据录制和标注,对录音人和录音环境要求很高。从启动定制到最终交付,项目周期长成本高。


阿里利用 Multi-Speaker Model 与 Speaker-aware Advanced Transfer Learning 相结合的方法,将语音合成定制成本降低 10 倍以上,周期压缩 3 倍以上。也就是说,用 1 小时有效录音数据和不到两个月制作周期,就能完成一次标准 TTS 定制。



构建多发音人语音合成系统的方式


普通用户定制“AI 声音”的门槛更低。阿里方面介绍称:只需手机录音十分钟,就能获得与录制声音高度相似的合成语音。阿里 AI 做到这一点,主要基于自动数据检查、自动标注方法和对海量用户场景的利用。


据了解,阿里已经对外提供开箱即用的 TTS 解决方案,共有通用、客服、童声、英文和方言 5 个场景的 34 种高品质声音供选择。


基于新一代技术,阿里还提高了设备端离线 TTS 的效果。这在超低资源设备端的 TTS 服务中非常有用,比如当人们驾车行驶于信号微弱区域,阿里技术能避免语音导航“掉线”。


2019-07-10 18:1510287
用户头像
陈思 InfoQ编辑

发布了 584 篇内容, 共 309.0 次阅读, 收获喜欢 1306 次。

关注

评论

发布
暂无评论
发现更多内容

ITSM 与自动化联动,让运维工作轻松翻倍

智象科技

自动化 ITSM 自动化运维 一体化运维

“边缘化”的机顶盒,被华为云CloudDevice拉回了客厅C位

Alter

开发一个交易所大概需要多少成本

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

鸿蒙资产数字化实战:Asset Store Kit实现文档资源智能管理

huafushutong

沉浸式天气互动与专业气象地图数据,全面提升你的天气体验

最新动态

什么是OA 系统?OA 系统要具备什么样的功能?

积木链小链

数字化转型 智能制造 OA系统

鸿蒙安全共享实战:Share Kit实现文档一键安全分发

huafushutong

鸿蒙数字凭证实战:Wallet Kit实现文档电子凭证管理

huafushutong

鸿蒙加密架构实战:Crypto Architecture Kit实现文档金融级防护

huafushutong

如何系统化搭建超智融合算力架构 | 龙蜥大讲堂

OpenAnolis小助手

操作系统 龙蜥社区 龙蜥大讲堂 超智融合算力

鸿蒙文档预检实战:Preview Kit实现合同风险智能预判

huafushutong

鸿蒙智能催办实战:Push Kit实现文档流程零延迟推进

huafushutong

HarmonyOS开发实战:Function Flow Runtime Kit实现文档处理自动化

huafushutong

鸿蒙PDF引擎实战:PDF Kit实现亿级文档极速渲染

huafushutong

鸿蒙基础服务实战:Basic Services Kit实现文档系统核心功能

huafushutong

鸿蒙车联文档实战:Car Kit实现车载场景智能办公

huafushutong

KubeEdge 1.21.0版本发布!节点任务框架全面升级!

华为云原生团队

云计算 容器 云原生

鸿蒙全连接实战:Connectivity Kit实现文档跨设备协同

huafushutong

鸿蒙文档解析实战:Reader Kit实现合同智能解构

huafushutong

鸿蒙数据防护实战:Data Protection Kit实现文档全生命周期安全

huafushutong

鸿蒙开发笔记:Device Security Kit保障办公文档安全存储

huafushutong

鸿蒙天气服务实战:Weather Service Kit实现文档工作流智能优化

huafushutong

HarmonyOS开发实战:Device Certificate Kit实现办公文档安全认证

huafushutong

谷云科技 iPaaS 成功入选Gartner 2025 API 管理市场指南

谷云科技RestCloud

AI API网关 集成平台 ipaas API 管理

什么是链游,链游系统开发价格以及方案

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

DApp开发:下一代互联网应用的底层逻辑与技术实践

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

鸿蒙开发实战:Driver Development Kit实现外接设备文档打印功能

huafushutong

鸿蒙开发笔记:Enterprise Data Guard Kit实现企业文档安全管控

huafushutong

鸿蒙场景融合实战:Scenario Fusion Kit实现跨文档智能关联

huafushutong

虚拟币钱包开发,开发一套钱包app开发费用 做一款类似tp钱包

区块链软件开发推广运营

交易所开发 dapp开发 链游开发 公链开发 代币开发

HarmonyOS开发实战:Distributed Service Kit实现跨设备文档协作

huafushutong

阿里巴巴发布新一代语音合成技术KAN-TTS,成本降低10倍、周期缩短3倍_AI&大模型_陈思_InfoQ精选文章