NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

改变游戏规则,微软推出 TTS 语言模型 VALL-E

作者:Daniel Dominguez

  • 2023-02-15
    北京
  • 本文字数:769 字

    阅读完需:约 3 分钟

改变游戏规则,微软推出TTS语言模型VALL-E

微软推出了VALL-E,这是一种用于文本到语音合成(TTS)的新型语言模型方法,它使用音频编解码器代码作为中间表示,只需听三秒钟的音频录音,即可复制任何人的声音。

 

VALL-E 是一种神经编解码器语言模型,其中 AI 对语音进行标记,并使用其算法利用这些标记来构建听起来像演讲者的波形,包括保持演讲者的音色和情绪基调等。

 

根据该研究论文,VALL-E 只需作为声音刺激的间接演讲者的三秒注册录音,就可以产生高质量的个性化语音。这样做不需要额外的结构工程、预先设计的声学特征或微调。它支持上下文学习和基于提示的零样品TTS 方法。

 

VALL-E 提供了 AI 模型的音频演示。样例之一的“Speaker Prompt”是 VALL-E 必须复制的三秒钟听觉提示。为了便于比较,“Ground Truth”是同一位演讲者使用特定短语(有点像实验中的“对照组”)录制的摘录。“Baseline”样例代表了一个典型的文本到语音合成的示例,“VALL-E”样例代表了 VALL-E 模型的输出。

 

根据评估数据,与最先进的零样本 TTS 系统相比,VALL-E 在LibriSpeechVCTK上的表现要好得多。在 LibriSpeech 和 VCTK 上,VALL-E 甚至产生了最尖端的零样本 TTS 结果。

 

近年来,由于神经网络和端到端建模的发展,语音合成领域取得了显著的进展。目前,声码器和声学模型通常用于级联的文本到语音(TTS)系统,其中mel谱图作为中间表示。来自单个演讲者或一组演讲者的高质量语音可以由复杂的 TTS 系统合成。

 

TTS 技术已经被集成到广泛的应用程序和设备中,如亚马逊的 Alexa 和谷歌助手等虚拟助理、导航应用程序和电子学习平台等。它还被用于娱乐、广告和客户服务等行业,以创造更具吸引力和个性化的体验。

 

原文链接:

https://www.infoq.com/news/2023/01/microsoft-text-to-speech-valle/


相关阅读:

微软 Azure Neural TTS 新增对 9 个“小语种”语言及口音支持

微软联合浙江大学提出全新 TTS 模型 FastSpeech,语音生成速度提高 38 倍

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2023-02-15 08:005062

评论

发布
暂无评论
发现更多内容

区块链技术的价值传递

CECBC

区块链

产品训练营第五周作业

朱航

Java 训练营第一周习题:02 加载字节码文件

现实中游走

Java

云算力系统开发|云算力APP软件开发

系统开发

Your small business questions, answered

小韩

2021 iOS底层提升计划

iOS底层

LeetCode题解:322. 零钱兑换,动态规划,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

【转】阿秀:C++经典49问49答

杨明越

作业5

赝品

小结Spring中bean的作用域与生命周期

李楠

spring 生命周期 bean 作用域

2021最新总结:阿里/京东/饿了么/拼多多/爱奇艺面经分享(堪称Offer收割机)

比伯

Java 编程 架构 面试 计算机

OAtuth2.0 知多少

圣杰

oauth2.0 dotnet

Linux Jenkins 自动打包vue部署到远程window服务器

三爻

Vue jenkins Win

编程常见必备知识

梦醒了

编程 链表 函数

产品训练营第五周作业

产品经理训练营

开源微服务运行时 Dapr 发布 1.0 版本

阿里巴巴云原生

开源 容器 微服务 开发者 云原生

第二次书摘的微信视频号直播复盘

小匚

用户体验

最值得期待的Python进阶宝典《Effective Python》第2版中文版来咯!

华章IT

Python 代码整洁 Python编程 EffectivePython Python进阶

量化炒币机器人软件系统开发|量化炒币机器人app开发

系统开发

Python编程入门手记

吕湛全

jenkins Android 自动构建-扫码下载

三爻

快速搭建本土「Clubhouse」

anyRTC开发者

ios android WebRTC RTC 语音通话

菜单展示的递归与非递归形式实现 (go语言版)

松小鼠

数据结构和算法

关于零售业数字化势在必行的一些杰出观点

小刘在学习

新零售

2021华为软件精英挑战赛正式开启,冠军奖金20万!

2021华为软件精英挑战赛

华为 软件 比赛 软件挑战赛

智能云网:从时代所需,到运营商所向

脑极体

量化机器人APP开发|量化机器人软件系统开发

系统开发

助力文化荟萃,区块链或可打造“新”春晚?

CECBC

区块链 春晚

区块链技术带来金融服务的信任变革

CECBC

金融

c语言函数与指针基础

赫鲁小夫

计算机内部的总线是什么

FishyFine

计算机结构

改变游戏规则,微软推出TTS语言模型VALL-E_AI&大模型_InfoQ精选文章