Agentic AI、具身智能、强化学习框架、端侧大模型……来QCon上海站,感受AI的未来! 了解详情
写点什么

阿里巴巴发布新一代语音合成技术 KAN-TTS,成本降低 10 倍、周期缩短 3 倍

  • 2019-07-10
  • 本文字数:963 字

    阅读完需:约 3 分钟

阿里巴巴发布新一代语音合成技术KAN-TTS,成本降低10倍、周期缩短3倍

TTS 是语音合成的一种方式,即文字转语音(Text-To-Speech),早在 17 世纪就有法国人研发机械式的说话装置。直到 19 世纪,贝尔实验室对于电子语音合成技术的研究,才开启近代语音合成技术的发展。贝尔实验室在 1939 年制作出第一个电子语音合成器 VODER,是一种利用共振峰原理所制作的合成器。


1960 年,瑞典语言学家 G. Fant 则提出利用线性预测编码技术(LPC)来作为语音合成分析技术,并推动了日后的发展。后来 1980 年代 Moulines E 和 Charpentier F 提出新的语音合成算法 PSOLA,此技术可以合成比较自然的语音。


在 7 月 9 日阿里巴巴的一场分享会上,达摩院语音实验室高级算法专家雷鸣进行了有关语音合成技术的分享,他认为:“我们目前所处的阶段是一个合成语言大变革的阶段,主要的特点是大家都希望能够提供一个非常接近于真人表现的合成语音,可喜的是,语音合成的质量进步很快。”


阿里巴巴发布的“新一代语音合成技术”KAN-TTS(Knowledge-Aware Neural TTS),由达摩院机器智能实验室自主研发。 阿里方面称,当前业界商用系统的合成语音与原始音频录音的接近程度通常在 85%到 90%之间,而基于 KAN-TTS 技术的合成语音可将该数据提高到 97%以上。


据了解,该技术深度融合了目前主流的端到端 TTS 技术和传统 TTS 技术,从多个方面改进了语音合成。



KAN-TTS 的基本框图


传统语音合成定制需要 10 小时以上的数据录制和标注,对录音人和录音环境要求很高。从启动定制到最终交付,项目周期长成本高。


阿里利用 Multi-Speaker Model 与 Speaker-aware Advanced Transfer Learning 相结合的方法,将语音合成定制成本降低 10 倍以上,周期压缩 3 倍以上。也就是说,用 1 小时有效录音数据和不到两个月制作周期,就能完成一次标准 TTS 定制。



构建多发音人语音合成系统的方式


普通用户定制“AI 声音”的门槛更低。阿里方面介绍称:只需手机录音十分钟,就能获得与录制声音高度相似的合成语音。阿里 AI 做到这一点,主要基于自动数据检查、自动标注方法和对海量用户场景的利用。


据了解,阿里已经对外提供开箱即用的 TTS 解决方案,共有通用、客服、童声、英文和方言 5 个场景的 34 种高品质声音供选择。


基于新一代技术,阿里还提高了设备端离线 TTS 的效果。这在超低资源设备端的 TTS 服务中非常有用,比如当人们驾车行驶于信号微弱区域,阿里技术能避免语音导航“掉线”。


2019-07-10 18:1510176
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 301.4 次阅读, 收获喜欢 1306 次。

关注

评论

发布
暂无评论
发现更多内容

鸿蒙仓颉开发语言实战教程:实现商城应用首页

幽蓝计划

《算法导论(第4版)》阅读笔记:p101-p114

codists

算法

秒懂 AI Agent:概念、能力与智能体差异全解析

Techinsight

agent #人工智能 人工智能、

MySQL 可观测性最佳实践

观测云

MySQL

Nessus Professional 10.8 | 10.6 Auto Installer for macOS Sequoia (updated May 2025)

sysin

Nessus

腾讯推出端到端语音通话模型「混元 Voice」,1.6 秒响应;实时转录工具集体爆发丨日报

声网

再看2025大模型风云变幻,深根者立于终局

脑极体

AI

F5《2025年应用战略现状》报告:AI 落地加速,企业战略从讨论迈向行动

科技热闻

AI 应用大起底:从生活场景到行业局限全知晓

Techinsight

#人工智能 AI 大底座 人工智能、

小红书私信如何高效管理?天润融通一站式客服解决方案来了!

天润融通

重拾童年,用 CodeBuddy 做自己的快乐创作者

不惑

CodeBuddy首席试玩官

Nessus Professional 10.8 | 10.6 Auto Installer for Ubuntu 24.04 (updated May 2025)

sysin

Nessus

硬核剧透!龙蜥社区系统运维联盟 MeetUp 全议程来啦

OpenAnolis小助手

AI 操作系统 系统运维 龙蜥社区 龙蜥meetup

天润融通:Agent驱动的人效革命,引领客户服务智能化转型

天润融通

01.数组深入浅出分析

杨充

Nessus Professional 10.8 | 10.6 Auto Installer for RHEL 9, AlmaLinux 9, Rocky Linux 9 (updated May 2025)

sysin

Nessus

【HarmonyOS 5】金融应用开发鸿蒙组件实践

GeorgeGcs

RECCV检测人脸伪造项目尝试与扩展

溪抱鱼

人工智能 大数据 人脸识别

AI存储需求的演进与ScaleFlux的应对

ScaleFlux

数据中心 企业级NVMeSSD 存储优化

天润融通助力卡尔蔡司,用可视化服务提升客户体验

天润融通

Cosmos on PAI系列一:PAI-Model Gallery云上一键部署NVIDIA Cosmos Reason-1

阿里云大数据AI技术

人工智能 应用开发 Cosmos 模型服务 PAI

深度剖析:AI 搜索的幻觉引用,为何如此难以察觉?

Techinsight

大模型幻觉 #大模型

Artgee Q2 完成战略拼图:技术 + 理财 + 跨境支付全布局

股市老人

实战:Dify智能体+Java=自动化运营工具!

王磊

Nessus Professional 10.8 | 10.6 Auto Installer for Windows (updated May 2025)

sysin

AI 多 Agent 开发未来:iVX IDE 的 AST 架构与主流产品的模型优化路径

代码制造者

AI 编程

Arthas dashboard(当前系统的实时数据面板)

刘大猫

人工智能 监控 Arthas 监控工具 dashboard

重磅揭秘!AI 搜索的 “链接是真,内容是编” 迷惑术!

Techinsight

聊点技术 | PodMonitor与ServiceMonitor:Kubernetes 监控利器

博睿数据

阿里云 Serverless 助力海牙湾构建弹性、高效、智能的 AI 数字化平台

阿里巴巴云原生

阿里云 Serverless 云原生

Arthas thread(查看当前JVM的线程堆栈信息)

刘大猫

JVM 监控 Thread Arthas 监控工具

阿里巴巴发布新一代语音合成技术KAN-TTS,成本降低10倍、周期缩短3倍_AI&大模型_陈思_InfoQ精选文章