写点什么

改变游戏规则,微软推出 TTS 语言模型 VALL-E

作者:Daniel Dominguez

  • 2023-02-15
    北京
  • 本文字数:769 字

    阅读完需:约 3 分钟

改变游戏规则,微软推出TTS语言模型VALL-E

微软推出了VALL-E,这是一种用于文本到语音合成(TTS)的新型语言模型方法,它使用音频编解码器代码作为中间表示,只需听三秒钟的音频录音,即可复制任何人的声音。

 

VALL-E 是一种神经编解码器语言模型,其中 AI 对语音进行标记,并使用其算法利用这些标记来构建听起来像演讲者的波形,包括保持演讲者的音色和情绪基调等。

 

根据该研究论文,VALL-E 只需作为声音刺激的间接演讲者的三秒注册录音,就可以产生高质量的个性化语音。这样做不需要额外的结构工程、预先设计的声学特征或微调。它支持上下文学习和基于提示的零样品TTS 方法。

 

VALL-E 提供了 AI 模型的音频演示。样例之一的“Speaker Prompt”是 VALL-E 必须复制的三秒钟听觉提示。为了便于比较,“Ground Truth”是同一位演讲者使用特定短语(有点像实验中的“对照组”)录制的摘录。“Baseline”样例代表了一个典型的文本到语音合成的示例,“VALL-E”样例代表了 VALL-E 模型的输出。

 

根据评估数据,与最先进的零样本 TTS 系统相比,VALL-E 在LibriSpeechVCTK上的表现要好得多。在 LibriSpeech 和 VCTK 上,VALL-E 甚至产生了最尖端的零样本 TTS 结果。

 

近年来,由于神经网络和端到端建模的发展,语音合成领域取得了显著的进展。目前,声码器和声学模型通常用于级联的文本到语音(TTS)系统,其中mel谱图作为中间表示。来自单个演讲者或一组演讲者的高质量语音可以由复杂的 TTS 系统合成。

 

TTS 技术已经被集成到广泛的应用程序和设备中,如亚马逊的 Alexa 和谷歌助手等虚拟助理、导航应用程序和电子学习平台等。它还被用于娱乐、广告和客户服务等行业,以创造更具吸引力和个性化的体验。

 

原文链接:

https://www.infoq.com/news/2023/01/microsoft-text-to-speech-valle/


相关阅读:

微软 Azure Neural TTS 新增对 9 个“小语种”语言及口音支持

微软联合浙江大学提出全新 TTS 模型 FastSpeech,语音生成速度提高 38 倍

2023-02-15 08:005388

评论

发布
暂无评论
发现更多内容

架构实战营 - 模块五 - 作业

小畅

想要优化Mac上的Git工作流程吗?试试Cornerstone!

Rose

集成式情景规划的场景管理思维方式

智达方通

企业管理 全面预算管理 情景规划 财务规划

如何利用 Seaborn 实现高级统计图表

华为云开发者联盟

Python 数据可视化 华为云 华为云开发者联盟 企业号2024年5月PK榜

IIFAA本地免密认证能力适配鸿蒙星河版,交通银行等首批接入

Lily

解锁前端新潜能:如何使用 Rust 锈化前端工具链

京东零售技术

taro rust 前端 企业号 5 月 PK 榜

高并发系统-使用自定义日志埋点快速排查问题

京东零售技术

Java 后端 高并发 企业号 5 月 PK 榜

高效音频录制与混音,Loopback for Mac必备工具!

Rose

音质飞跃,Waves 14打造专业级音频效果!

Rose

苹果Mac电脑深度卸载工具:App Uninstaller for Mac中文直装版

Rose

TG Pro:实时监控Mac电脑的核心温度、风扇转速、传感器数据等

Rose

Microsoft Office 2019安装包下载 飞跃升级,智慧办公!

Rose

OpenAI 首次推出新模型 GPT-4o“全能”模型,超越所有语音助手

蓉蓉

openai GPT-4

小间距室内LED:六大技术挑战及应对策略

Dylan

LED display LED显示屏 全彩LED显示屏 led显示屏厂家

010 Editor:二进制编辑的终极利器!

Rose

一键直达精彩!Clicker for Netflix,你的专属观影神器!

Rose

揭秘AI黑科技:如何一键生成完美架构图?

测吧(北京)科技有限公司

测试

GPT-5被证缺席,GPT-3.5至5,一文看懂AI进化大不同!

可信AI进展

游戏陪玩系统,游戏陪玩源码,游戏陪玩语音社交源码 运营版游戏陪玩平台源码/tt语音聊天/声优服务/陪玩系统源码开黑/约玩源码

DUOKE七七

陪玩系统源码

音量、音效一键调节,Sound Control你的音频管家!

Rose

微软远程Microsoft Remote Desktop直装版 及使用教程分享

Rose

淘宝/天猫商品描述API接口(taobao.item_get_desc)返回值解读

技术冰糖葫芦

API Explorer API 接口 API 文档 API 性能测试

改变游戏规则,微软推出TTS语言模型VALL-E_AI&大模型_InfoQ精选文章