2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

阿里巴巴发布新一代语音合成技术 KAN-TTS,成本降低 10 倍、周期缩短 3 倍

  • 2019-07-10
  • 本文字数:963 字

    阅读完需:约 3 分钟

阿里巴巴发布新一代语音合成技术KAN-TTS,成本降低10倍、周期缩短3倍

TTS 是语音合成的一种方式,即文字转语音(Text-To-Speech),早在 17 世纪就有法国人研发机械式的说话装置。直到 19 世纪,贝尔实验室对于电子语音合成技术的研究,才开启近代语音合成技术的发展。贝尔实验室在 1939 年制作出第一个电子语音合成器 VODER,是一种利用共振峰原理所制作的合成器。


1960 年,瑞典语言学家 G. Fant 则提出利用线性预测编码技术(LPC)来作为语音合成分析技术,并推动了日后的发展。后来 1980 年代 Moulines E 和 Charpentier F 提出新的语音合成算法 PSOLA,此技术可以合成比较自然的语音。


在 7 月 9 日阿里巴巴的一场分享会上,达摩院语音实验室高级算法专家雷鸣进行了有关语音合成技术的分享,他认为:“我们目前所处的阶段是一个合成语言大变革的阶段,主要的特点是大家都希望能够提供一个非常接近于真人表现的合成语音,可喜的是,语音合成的质量进步很快。”


阿里巴巴发布的“新一代语音合成技术”KAN-TTS(Knowledge-Aware Neural TTS),由达摩院机器智能实验室自主研发。 阿里方面称,当前业界商用系统的合成语音与原始音频录音的接近程度通常在 85%到 90%之间,而基于 KAN-TTS 技术的合成语音可将该数据提高到 97%以上。


据了解,该技术深度融合了目前主流的端到端 TTS 技术和传统 TTS 技术,从多个方面改进了语音合成。



KAN-TTS 的基本框图


传统语音合成定制需要 10 小时以上的数据录制和标注,对录音人和录音环境要求很高。从启动定制到最终交付,项目周期长成本高。


阿里利用 Multi-Speaker Model 与 Speaker-aware Advanced Transfer Learning 相结合的方法,将语音合成定制成本降低 10 倍以上,周期压缩 3 倍以上。也就是说,用 1 小时有效录音数据和不到两个月制作周期,就能完成一次标准 TTS 定制。



构建多发音人语音合成系统的方式


普通用户定制“AI 声音”的门槛更低。阿里方面介绍称:只需手机录音十分钟,就能获得与录制声音高度相似的合成语音。阿里 AI 做到这一点,主要基于自动数据检查、自动标注方法和对海量用户场景的利用。


据了解,阿里已经对外提供开箱即用的 TTS 解决方案,共有通用、客服、童声、英文和方言 5 个场景的 34 种高品质声音供选择。


基于新一代技术,阿里还提高了设备端离线 TTS 的效果。这在超低资源设备端的 TTS 服务中非常有用,比如当人们驾车行驶于信号微弱区域,阿里技术能避免语音导航“掉线”。


2019-07-10 18:1510274
用户头像
陈思 InfoQ编辑

发布了 584 篇内容, 共 308.3 次阅读, 收获喜欢 1306 次。

关注

评论

发布
暂无评论
发现更多内容

MySQL-技术专题-STRAIGHT_JOIN

码界西柚

华为云“创原会”:40+技术精英论道云原生2.0

华为云开发者联盟

k8s 华为云

【原创】Spring Boot 集成Spring Data JPA的玩法

田维常

spring Boot Starter

【原创】Spring Boot集成Mybatis的玩法

田维常

spring Boot Starter

详解软件行业低代码开发平台以及敏捷开发方案

Marilyn

敏捷开发

MySQL-技术专题-创建临时表

码界西柚

【原创】Spring Boot 如何手写stater

田维常

spring Boot Starter

想不通(关于人生的突发奇想)

干啥啥不行的赢

Spring Boot 集成 Druid 监控数据源

田维常

spring Boot Starter

Spring Boot 如何快速实现定时任务

田维常

spring Boot Starter

用时半个月,终于把2020年各大公司的Java面试题精选整理成文档了

Java架构之路

Java 架构 面试 编程语言

阿里P8Java大神给迷茫的程序员一些中肯建议:“请不要再虚度光阴了!”

Java架构之路

Java 阿里巴巴 程序员 架构 编程语言

【原创】SpringBoot快速整合Thymeleaf模板引擎

田维常

spring Boot Starter

为什么11·11物流一年比一年快?奥秘就在这里!

华为云开发者联盟

物联网 物流 仓储

国家超算深圳中心计划2年内提升计算能力至少1000倍;图神经网络的生成式预训练论文解读

京东科技开发者

云计算

【原创】Spring Boot集成Redis的玩法

田维常

spring Boot Starter

只需三步,带你从0到1玩转React,附源码我一定给你讲明白

小Q

Java 学习 编程 架构 面试

如何快速构建Spring Boot基础项目?

田维常

spring Boot Starter

浅析一个较完整的SpringBoot项目

田维常

spring Boot Starter

【原创】Spring Boot终极篇《上》

田维常

spring Boot Starter

区块链数字货币商城系统开发技术

薇電13242772558

区块链 数字货币

华为云FusionInsight湖仓一体解决方案的前世今生

华为云开发者联盟

数据库 华为 仓库

【原创】Spring Boot终极篇《下》

田维常

spring Boot Starter

阿里P8架构师呕心沥血整理的【Docker实战】文档带你玩转Docker。

Java架构之路

Java 程序员 架构 面试 编程语言

【原创】SpringBoot 这几种配置文件方式,你都用过吗?

田维常

spring Boot Starter

华为20级工程师吐血整理出600页Spring微服务架构设计,绝了!

996小迁

Java spring 编程 架构 微服务

【原创】Spring Boot 过滤器、监听器、拦截器的使用

田维常

spring Boot Starter

WebSocket连接错误Error during WebSocket handshake Unexpected response code 404

码界西柚

【原创】Spring Boot一口气说自动装配与案例

田维常

spring Boot Starter

2020双十一终极清单!阿里云CDN&视频云最全优惠攻略

阿里云Edge Plus

CDN

产品经理团队的管理秘法

马踏飞机747

管理 产品经理 团队

阿里巴巴发布新一代语音合成技术KAN-TTS,成本降低10倍、周期缩短3倍_AI&大模型_陈思_InfoQ精选文章