2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

阿里巴巴发布新一代语音合成技术 KAN-TTS,成本降低 10 倍、周期缩短 3 倍

  • 2019-07-10
  • 本文字数:963 字

    阅读完需:约 3 分钟

阿里巴巴发布新一代语音合成技术KAN-TTS,成本降低10倍、周期缩短3倍

TTS 是语音合成的一种方式,即文字转语音(Text-To-Speech),早在 17 世纪就有法国人研发机械式的说话装置。直到 19 世纪,贝尔实验室对于电子语音合成技术的研究,才开启近代语音合成技术的发展。贝尔实验室在 1939 年制作出第一个电子语音合成器 VODER,是一种利用共振峰原理所制作的合成器。


1960 年,瑞典语言学家 G. Fant 则提出利用线性预测编码技术(LPC)来作为语音合成分析技术,并推动了日后的发展。后来 1980 年代 Moulines E 和 Charpentier F 提出新的语音合成算法 PSOLA,此技术可以合成比较自然的语音。


在 7 月 9 日阿里巴巴的一场分享会上,达摩院语音实验室高级算法专家雷鸣进行了有关语音合成技术的分享,他认为:“我们目前所处的阶段是一个合成语言大变革的阶段,主要的特点是大家都希望能够提供一个非常接近于真人表现的合成语音,可喜的是,语音合成的质量进步很快。”


阿里巴巴发布的“新一代语音合成技术”KAN-TTS(Knowledge-Aware Neural TTS),由达摩院机器智能实验室自主研发。 阿里方面称,当前业界商用系统的合成语音与原始音频录音的接近程度通常在 85%到 90%之间,而基于 KAN-TTS 技术的合成语音可将该数据提高到 97%以上。


据了解,该技术深度融合了目前主流的端到端 TTS 技术和传统 TTS 技术,从多个方面改进了语音合成。



KAN-TTS 的基本框图


传统语音合成定制需要 10 小时以上的数据录制和标注,对录音人和录音环境要求很高。从启动定制到最终交付,项目周期长成本高。


阿里利用 Multi-Speaker Model 与 Speaker-aware Advanced Transfer Learning 相结合的方法,将语音合成定制成本降低 10 倍以上,周期压缩 3 倍以上。也就是说,用 1 小时有效录音数据和不到两个月制作周期,就能完成一次标准 TTS 定制。



构建多发音人语音合成系统的方式


普通用户定制“AI 声音”的门槛更低。阿里方面介绍称:只需手机录音十分钟,就能获得与录制声音高度相似的合成语音。阿里 AI 做到这一点,主要基于自动数据检查、自动标注方法和对海量用户场景的利用。


据了解,阿里已经对外提供开箱即用的 TTS 解决方案,共有通用、客服、童声、英文和方言 5 个场景的 34 种高品质声音供选择。


基于新一代技术,阿里还提高了设备端离线 TTS 的效果。这在超低资源设备端的 TTS 服务中非常有用,比如当人们驾车行驶于信号微弱区域,阿里技术能避免语音导航“掉线”。


2019-07-10 18:1510233
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 305.7 次阅读, 收获喜欢 1306 次。

关注

评论

发布
暂无评论
发现更多内容

Rust从0到1-集合-Vector

rust 集合 Collections vecotr

大数据技术发展的过程

菜菜

系统服务-技术专题-并发模型粗浅分析探讨

码界西柚

并发编程

uni-app rtc插件集成指南及常见问题--iOS

anyRTC开发者

uni-app ios 音视频 WebRTC RTC

头一次见到阿里大牛把spring boot讲的如此通俗易懂

Java 编程 程序员 架构

行业洞察 | 风口上的互联网医疗,如何赢得下半场?

澳鹏Appen

人工智能 大数据 医疗方案 智能医疗 医疗AI

001 ES suggest-IK 中文

小林-1025

ES es7

这份清华学霸的Java反射完整版学习笔记,2小时带你从入门到入土

飞飞JAva

数据人上班划水都聊什么

数据社

大数据 程序员

shell的三种循环

做个人吧

CrossOver for Mac 怎么用?

懒得勤快

江西组织部干部人事综合管理平台建设,干部管理系统

音频技术及行业的发展

Emotion

音频技术

阿里云 ARMS 3.0 重磅发布云拨测,Gartner APM 魔力象限产品解读

阿里巴巴中间件

阿里云 Gartner 可观测

干了八年的阿里面试官,给大家分享我面试时最爱问的Java面试题

Java架构师迁哥

智能创作平台全新升级,助力开启智能媒体新时代

百度大脑

人工智能 智能创作

不想搞Java了,现在Java面试为何这么难

Java架构师迁哥

本科学历,杭州工作4年,三个月学习入职阿里,薪资涨幅达到50%

比伯

Java 编程 程序员 架构 计算机

一周信创舆情观察(4.19~4.25)

统小信uos

软件IT专业大学生学习情况调查

老猿Python

学习 大学生 软件IT专业 高校

封神总结!蚂蚁金服+滴滴+美团+拼多多+腾讯15万字Java面试题

Java 程序员 架构 面试

【Java面试】30个 Java 集合面试必备的问题和答案 ​

Java架构师迁哥

复习一周 成功拿到字节Offer 我也惊呆了

学Java关注我

Java 面试 程序人生 编程语言 计算机

面试10家公司,终入阿里,感谢大佬的Java面试进阶解析笔记

Java架构师迁哥

公安局情指勤一体化指挥调度系统开发

击破行业痛点,区块链赋能智慧物流高速发展

CECBC

区块链

编曲混音必备法宝——FL三大效果器简介

奈奈的杂社

资源数据治理的应用实践

鲸品堂

数据 治理 运营商

你“会”学算法吗?

IT蜗壳-Tango

000 ES suggest-英文

小林-1025

es7

独具特色的臻品音库,带来更优质的听觉体验

百度大脑

人工智能 独具特色

阿里巴巴发布新一代语音合成技术KAN-TTS,成本降低10倍、周期缩短3倍_AI&大模型_陈思_InfoQ精选文章