写点什么

改变游戏规则,微软推出 TTS 语言模型 VALL-E

作者:Daniel Dominguez

  • 2023-02-15
    北京
  • 本文字数:769 字

    阅读完需:约 3 分钟

改变游戏规则,微软推出TTS语言模型VALL-E

微软推出了VALL-E,这是一种用于文本到语音合成(TTS)的新型语言模型方法,它使用音频编解码器代码作为中间表示,只需听三秒钟的音频录音,即可复制任何人的声音。

 

VALL-E 是一种神经编解码器语言模型,其中 AI 对语音进行标记,并使用其算法利用这些标记来构建听起来像演讲者的波形,包括保持演讲者的音色和情绪基调等。

 

根据该研究论文,VALL-E 只需作为声音刺激的间接演讲者的三秒注册录音,就可以产生高质量的个性化语音。这样做不需要额外的结构工程、预先设计的声学特征或微调。它支持上下文学习和基于提示的零样品TTS 方法。

 

VALL-E 提供了 AI 模型的音频演示。样例之一的“Speaker Prompt”是 VALL-E 必须复制的三秒钟听觉提示。为了便于比较,“Ground Truth”是同一位演讲者使用特定短语(有点像实验中的“对照组”)录制的摘录。“Baseline”样例代表了一个典型的文本到语音合成的示例,“VALL-E”样例代表了 VALL-E 模型的输出。

 

根据评估数据,与最先进的零样本 TTS 系统相比,VALL-E 在LibriSpeechVCTK上的表现要好得多。在 LibriSpeech 和 VCTK 上,VALL-E 甚至产生了最尖端的零样本 TTS 结果。

 

近年来,由于神经网络和端到端建模的发展,语音合成领域取得了显著的进展。目前,声码器和声学模型通常用于级联的文本到语音(TTS)系统,其中mel谱图作为中间表示。来自单个演讲者或一组演讲者的高质量语音可以由复杂的 TTS 系统合成。

 

TTS 技术已经被集成到广泛的应用程序和设备中,如亚马逊的 Alexa 和谷歌助手等虚拟助理、导航应用程序和电子学习平台等。它还被用于娱乐、广告和客户服务等行业,以创造更具吸引力和个性化的体验。

 

原文链接:

https://www.infoq.com/news/2023/01/microsoft-text-to-speech-valle/


相关阅读:

微软 Azure Neural TTS 新增对 9 个“小语种”语言及口音支持

微软联合浙江大学提出全新 TTS 模型 FastSpeech,语音生成速度提高 38 倍

2023-02-15 08:005554

评论

发布
暂无评论
发现更多内容

架构师第三周

Tulane

Week3

泛岁月的涟漪

设计模式——架构师的重要武器

拈香(曾德政)

设计模式 架构师 极客大学架构师训练营

架构师-Week3-总结

龙7

架构师训练营W3 学习总结

Kun

架构师训练营 -- 第三周 -- 作业1

lei Shi

week3 作业

Geek_z9dmvw

第 03 周作业

Jeremy

架构师训练营 -- 第三周 -- 总结

lei Shi

Nginx系列教程(二)| 一文带你读懂Nginx的正向与反向代理

JackTian

nginx Linux 运维 lnmp 正向代理与反向代理

架构师训练营第三周心得

努力努力再努力m

极客大学架构师训练营

第三周学习总结

桔子

架构师训练营-第3周-总结

Dawn

设计模式 极客大学架构师训练营

设计模式应用

wei

架构师训练营第三周作业

努力努力再努力m

极客大学架构师训练营

架构师训练营第三周作业

坂田吴奇隆

week3 命题作业

小叶

极客大学架构师训练营

架构师第3周总结

上山砍柴

极客大学架构师训练营

架构师训练营 -week03 学习总结

GunShotPanda

第三周学习笔记

子豪sirius

本周总结

Thrine

架构师训练营 第三周 作业

极客

架构师训练营第三周作业

路人

极客大学架构师训练营

架构师训练营 - 第三周作业

桔子

组合模式

Jeff

第3周作业

娄江国

极客大学架构师训练营

架构师课作业-第三周

Tulane

架构师训练营第3周作业

子豪sirius

架构师训练营第三周总结

olderwei

学习总结 - 架构师训练营 - 第三周

走过路过飞过

练习 3-1

闷骚程序员

改变游戏规则,微软推出TTS语言模型VALL-E_AI&大模型_InfoQ精选文章