2天时间,聊今年最热的 Agent、上下文工程、AI 产品创新等话题。2025 年最后一场~ 了解详情
写点什么

阿里巴巴发布新一代语音合成技术 KAN-TTS,成本降低 10 倍、周期缩短 3 倍

  • 2019-07-10
  • 本文字数:963 字

    阅读完需:约 3 分钟

阿里巴巴发布新一代语音合成技术KAN-TTS,成本降低10倍、周期缩短3倍

TTS 是语音合成的一种方式,即文字转语音(Text-To-Speech),早在 17 世纪就有法国人研发机械式的说话装置。直到 19 世纪,贝尔实验室对于电子语音合成技术的研究,才开启近代语音合成技术的发展。贝尔实验室在 1939 年制作出第一个电子语音合成器 VODER,是一种利用共振峰原理所制作的合成器。


1960 年,瑞典语言学家 G. Fant 则提出利用线性预测编码技术(LPC)来作为语音合成分析技术,并推动了日后的发展。后来 1980 年代 Moulines E 和 Charpentier F 提出新的语音合成算法 PSOLA,此技术可以合成比较自然的语音。


在 7 月 9 日阿里巴巴的一场分享会上,达摩院语音实验室高级算法专家雷鸣进行了有关语音合成技术的分享,他认为:“我们目前所处的阶段是一个合成语言大变革的阶段,主要的特点是大家都希望能够提供一个非常接近于真人表现的合成语音,可喜的是,语音合成的质量进步很快。”


阿里巴巴发布的“新一代语音合成技术”KAN-TTS(Knowledge-Aware Neural TTS),由达摩院机器智能实验室自主研发。 阿里方面称,当前业界商用系统的合成语音与原始音频录音的接近程度通常在 85%到 90%之间,而基于 KAN-TTS 技术的合成语音可将该数据提高到 97%以上。


据了解,该技术深度融合了目前主流的端到端 TTS 技术和传统 TTS 技术,从多个方面改进了语音合成。



KAN-TTS 的基本框图


传统语音合成定制需要 10 小时以上的数据录制和标注,对录音人和录音环境要求很高。从启动定制到最终交付,项目周期长成本高。


阿里利用 Multi-Speaker Model 与 Speaker-aware Advanced Transfer Learning 相结合的方法,将语音合成定制成本降低 10 倍以上,周期压缩 3 倍以上。也就是说,用 1 小时有效录音数据和不到两个月制作周期,就能完成一次标准 TTS 定制。



构建多发音人语音合成系统的方式


普通用户定制“AI 声音”的门槛更低。阿里方面介绍称:只需手机录音十分钟,就能获得与录制声音高度相似的合成语音。阿里 AI 做到这一点,主要基于自动数据检查、自动标注方法和对海量用户场景的利用。


据了解,阿里已经对外提供开箱即用的 TTS 解决方案,共有通用、客服、童声、英文和方言 5 个场景的 34 种高品质声音供选择。


基于新一代技术,阿里还提高了设备端离线 TTS 的效果。这在超低资源设备端的 TTS 服务中非常有用,比如当人们驾车行驶于信号微弱区域,阿里技术能避免语音导航“掉线”。


2019-07-10 18:1510213
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 304.6 次阅读, 收获喜欢 1306 次。

关注

评论

发布
暂无评论
发现更多内容

PoseiSwap的趋势性如何体现?

鳄鱼视界

ISDP发布伙伴体验中心,与合作伙伴共创数智化未来

轶天下事

企业作业数字化转型,选择平台要重点考虑哪几点?选哪个平台?

轶天下事

深度学习应用篇-计算机视觉-视频分类[8]:时间偏移模块(TSM)、TimeSformer无卷积视频分类方法、注意力机制

汀丶人工智能

人工智能 深度学习 计算机视觉 视频分类 6 月 优质更文活动

PoseiSwap的趋势性如何体现?

股市老人

PoseiSwap的趋势性如何体现?

西柚子

2023-06-11:redis中,如何在100个亿URL中快速判断某URL是否存在?

福大大架构师每日一题

redis 福大大架构师每日一题

Sparkplug 规范中涉及 MQTT Broker 的 5 个关键概念

EMQ映云科技

通信协议 mqtt 工业物联网

企业作业数字化转型需要什么工具,华为ISDP有话说

轶天下事

软件测试 | Selenium基础

测吧(北京)科技有限公司

测试

一些对程序员有用的网站

小万哥

程序员 程序人生 运维 前端 后端

软件测试 | Selenium-RC工作原理

测吧(北京)科技有限公司

测试

分布式流处理组件-理论篇:Broker

谢先生F

kafka Java' 分布式消息流平台

用Python白嫖WPS付费功能:把PPT转为 1张 长图,1行代码搞定

程序员晚枫

Python 图片 PPT

ISDP发布伙伴体验中心正式发布,华为盛邀伙伴探索数智化未来

轶天下事

微服务容器化的运维

穿过生命散发芬芳

微服务 6 月 优质更文活动

STM32读取MQ2烟雾浓度数据判断烟雾是否超标

DS小龙哥

6 月 优质更文活动

STM32通过ADC1读取光敏电阻的值转换光照强度

DS小龙哥

6 月 优质更文活动

C语言编程—递归

芯动大师

递归 C语言 6 月 优质更文活动

Service Mesh的主要实现原理

穿过生命散发芬芳

Service Mesh 6 月 优质更文活动

深度学习应用篇-计算机视觉-OCR光学字符识别[7]:OCR综述、常用CRNN识别方法、DBNet、CTPN检测方法等、评估指标、应用场景

汀丶人工智能

人工智能 深度学习 计算机视觉 OCR 6 月 优质更文活动

关于验收标准,你需要知道的一切(译)

Bruce Talk

Scrum 敏捷

华为云618活动来袭,精选CDN和视频云产品限时低价秒杀0.6折起

轶天下事

Docker化Spring Boot应用

越长大越悲伤

Docker Docker Swarm

C语言编程—递归

夜猫西街

C语言编程—错误处理

芯动大师

C语言 错误 6 月 优质更文活动

Nautilus Chain全球行分享会,上海站圆满举办

西柚子

PoseiSwap的趋势性如何体现?

BlockChain先知

阿里巴巴发布新一代语音合成技术KAN-TTS,成本降低10倍、周期缩短3倍_AI&大模型_陈思_InfoQ精选文章