写点什么

阿里巴巴发布新一代语音合成技术 KAN-TTS,成本降低 10 倍、周期缩短 3 倍

  • 2019-07-10
  • 本文字数:963 字

    阅读完需:约 3 分钟

阿里巴巴发布新一代语音合成技术KAN-TTS,成本降低10倍、周期缩短3倍

TTS 是语音合成的一种方式,即文字转语音(Text-To-Speech),早在 17 世纪就有法国人研发机械式的说话装置。直到 19 世纪,贝尔实验室对于电子语音合成技术的研究,才开启近代语音合成技术的发展。贝尔实验室在 1939 年制作出第一个电子语音合成器 VODER,是一种利用共振峰原理所制作的合成器。


1960 年,瑞典语言学家 G. Fant 则提出利用线性预测编码技术(LPC)来作为语音合成分析技术,并推动了日后的发展。后来 1980 年代 Moulines E 和 Charpentier F 提出新的语音合成算法 PSOLA,此技术可以合成比较自然的语音。


在 7 月 9 日阿里巴巴的一场分享会上,达摩院语音实验室高级算法专家雷鸣进行了有关语音合成技术的分享,他认为:“我们目前所处的阶段是一个合成语言大变革的阶段,主要的特点是大家都希望能够提供一个非常接近于真人表现的合成语音,可喜的是,语音合成的质量进步很快。”


阿里巴巴发布的“新一代语音合成技术”KAN-TTS(Knowledge-Aware Neural TTS),由达摩院机器智能实验室自主研发。 阿里方面称,当前业界商用系统的合成语音与原始音频录音的接近程度通常在 85%到 90%之间,而基于 KAN-TTS 技术的合成语音可将该数据提高到 97%以上。


据了解,该技术深度融合了目前主流的端到端 TTS 技术和传统 TTS 技术,从多个方面改进了语音合成。



KAN-TTS 的基本框图


传统语音合成定制需要 10 小时以上的数据录制和标注,对录音人和录音环境要求很高。从启动定制到最终交付,项目周期长成本高。


阿里利用 Multi-Speaker Model 与 Speaker-aware Advanced Transfer Learning 相结合的方法,将语音合成定制成本降低 10 倍以上,周期压缩 3 倍以上。也就是说,用 1 小时有效录音数据和不到两个月制作周期,就能完成一次标准 TTS 定制。



构建多发音人语音合成系统的方式


普通用户定制“AI 声音”的门槛更低。阿里方面介绍称:只需手机录音十分钟,就能获得与录制声音高度相似的合成语音。阿里 AI 做到这一点,主要基于自动数据检查、自动标注方法和对海量用户场景的利用。


据了解,阿里已经对外提供开箱即用的 TTS 解决方案,共有通用、客服、童声、英文和方言 5 个场景的 34 种高品质声音供选择。


基于新一代技术,阿里还提高了设备端离线 TTS 的效果。这在超低资源设备端的 TTS 服务中非常有用,比如当人们驾车行驶于信号微弱区域,阿里技术能避免语音导航“掉线”。


公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2019-07-10 18:159508
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 262.6 次阅读, 收获喜欢 1293 次。

关注

评论

发布
暂无评论
发现更多内容

【PCB技能】脑瓜疼的PCB反复评审难题,解决方法在这!

华秋PCB

工具 PCB PCB设计

大数据培训学习后程序员就业前景如何

小谷哥

迁移回归问题新突破,火山语音团队论文被人工智能顶级期刊IEEE TPAMI接收

科技热闻

秒云成功入选《2022爱分析 · 信创厂商全景报告》

MIAOYUN

信创 信创云 金融信创 信创产业

PostgreSQL 技术内幕(三)聚集算子

酷克数据HashData

postgresql

专业开发人员需要低代码开发平台吗

力软低代码开发平台

前端精准测试实践

京东科技开发者

前端 测试 精准测试 webhook 精准分析

Redis数据持久化机制(备份恢复)、缓存淘汰策略、主从同步原理、常见规范与优化详解

C++后台开发

数据库 redis 中间件 后端开发 C++开发

java架构师培训学习需要多久?

小谷哥

微信业务架构图 & 学生系统技术架构图

白杨

前端leetcde算法面试套路之堆

js2030code

JavaScript LeetCode

与Web3支付赛道主要项目相比,Zebec生态潜力相当大

EOSdreamer111

架构实战营模块一作业

😊😊😊

作业一

大数据培训学习需要注重哪些知识呢

小谷哥

与Web3支付赛道主要项目相比,Zebec生态潜力相当大

股市老人

华为云发布CodeArts Req需求管理工具 让需求管理化繁为简

Geek_2d6073

数读甘肃数字经济 | 2022年甘肃14市州数字经济发展活跃度指数发布

易观分析

数字经济 甘肃

极客时间-架构训练营-作业一

devilyaos

架构训练营 架构训练营10期

面试官:小伙子你说一下分布分表

Java全栈架构师

程序员 程序人生 后端 架构师 分布分表

架构训练营模块一作业

Dinfan

架构实战营

2022阿里云研发效能峰会,来啦!

阿里云云效

DevOps 研发效能 开发 数字化转型

架构训练营模块1作业

gigifrog

架构训练营

深圳前端培训学习编程的就业方向有哪些?

小谷哥

北京前端培训程序员学习方法有哪些

小谷哥

AI技术实践|用腾讯云录音文件识别让无字幕视频自动生成字幕

牵着蜗牛去散步

人工智能 腾讯云 腾讯 语音识别

如何通过C#合并Word文档

在下毛毛雨

C# .net word文档 文件合并

各开发语言DNS缓存配置建议

京东科技开发者

#DNS

事务相关知识集锦

京东科技开发者

MySQL 数据库 spring mybatis 事务

文盘Rust -- r2d2 实现redis连接池

京东科技开发者

redis 后端 封装 连接池 rust语言

看场景、重实操,实时数仓不是“纸上谈兵”

阿里云大数据AI技术

大数据 实时数仓 12 月 PK 榜

【中国信通院|低代码·无代码应用沙龙】低代码平台在云智慧的实践探索

云智慧AIOps社区

大前端 低代码 数据可视化 无代码 可视化大屏

阿里巴巴发布新一代语音合成技术KAN-TTS,成本降低10倍、周期缩短3倍_AI&大模型_陈思_InfoQ精选文章