写点什么

改变游戏规则,微软推出 TTS 语言模型 VALL-E

作者:Daniel Dominguez

  • 2023-02-15
    北京
  • 本文字数:769 字

    阅读完需:约 3 分钟

改变游戏规则,微软推出TTS语言模型VALL-E

微软推出了VALL-E,这是一种用于文本到语音合成(TTS)的新型语言模型方法,它使用音频编解码器代码作为中间表示,只需听三秒钟的音频录音,即可复制任何人的声音。

 

VALL-E 是一种神经编解码器语言模型,其中 AI 对语音进行标记,并使用其算法利用这些标记来构建听起来像演讲者的波形,包括保持演讲者的音色和情绪基调等。

 

根据该研究论文,VALL-E 只需作为声音刺激的间接演讲者的三秒注册录音,就可以产生高质量的个性化语音。这样做不需要额外的结构工程、预先设计的声学特征或微调。它支持上下文学习和基于提示的零样品TTS 方法。

 

VALL-E 提供了 AI 模型的音频演示。样例之一的“Speaker Prompt”是 VALL-E 必须复制的三秒钟听觉提示。为了便于比较,“Ground Truth”是同一位演讲者使用特定短语(有点像实验中的“对照组”)录制的摘录。“Baseline”样例代表了一个典型的文本到语音合成的示例,“VALL-E”样例代表了 VALL-E 模型的输出。

 

根据评估数据,与最先进的零样本 TTS 系统相比,VALL-E 在LibriSpeechVCTK上的表现要好得多。在 LibriSpeech 和 VCTK 上,VALL-E 甚至产生了最尖端的零样本 TTS 结果。

 

近年来,由于神经网络和端到端建模的发展,语音合成领域取得了显著的进展。目前,声码器和声学模型通常用于级联的文本到语音(TTS)系统,其中mel谱图作为中间表示。来自单个演讲者或一组演讲者的高质量语音可以由复杂的 TTS 系统合成。

 

TTS 技术已经被集成到广泛的应用程序和设备中,如亚马逊的 Alexa 和谷歌助手等虚拟助理、导航应用程序和电子学习平台等。它还被用于娱乐、广告和客户服务等行业,以创造更具吸引力和个性化的体验。

 

原文链接:

https://www.infoq.com/news/2023/01/microsoft-text-to-speech-valle/


相关阅读:

微软 Azure Neural TTS 新增对 9 个“小语种”语言及口音支持

微软联合浙江大学提出全新 TTS 模型 FastSpeech,语音生成速度提高 38 倍

2023-02-15 08:005785

评论

发布
暂无评论
发现更多内容

Lua开发技巧-小表预填充

HelloBug

lua 开发技巧 小表预填充

大数据训练营-作业1

talen

种草社区小红书广告泛滥:数据正在剥夺了我们的消费选择权

石头IT视角

HTTP和HTTPS协议整理

赖猫

https HTTP

团队使用 Slack 技巧

郭旭东

远程办公 Slack

架构实战营模块8作业

Vic

架构实战营

穿越数字化海浪,京东云舰护航千行百业抵达混合多云的彼岸

脑极体

拿来把你,挖掘实战之基本挖掘流程【建议收藏】

网络安全学海

黑客 网络安全 信息安全 渗透测试· 漏洞分析

架构实战营模块二作业

宁静志远

架构实战营

模块二作业分析微信朋友圈高性能复杂度

kitten

微信朋友圈 模块二

网络攻防学习笔记 Day74

穿过生命散发芬芳

网络攻防 7月日更

浅谈大数据的过去、现在和未来

王知无

索引

卢卡多多

索引 7月日更

Why WebRTC|“浅入深出”的工作原理详解

声网

算法 音视频

第八次作业

Geek_9cf7b5

《持之以恒的从事运动》七

Changing Lin

7月日更

APISIX 网关--初识

陈靓-哲露

网关 APISIX

架构实战营 模块八作业

夏日

架构实战营

发布两小时,霸榜GitHub!Spring Boot实战文档

Java 程序员 面试

架构实战营模块 8

阿体

看完四场卖房直播后,我读懂了“RARRA”增长模型的根本逻辑

脑极体

Ansible Playbook - 02

耳东@Erdong

ansible 7月日更 ansible Playbook

【架构实战营】第 8模块作业

swordman

架构实战营

Python 的上下文管理器是怎么设计的?

Python猫

Python

设计消息队列存储消息数据的 MySQL 表格

thewangzl

【HikariCP技术专题】核心源码分析(为什么那么快?)

码界西柚

源码分析 7月日更 数据源连接池 HikraCP

架构实战营模块八:课后作业

唐江

架构实战营

B 站崩了,受害程序员聊聊

程序员鱼皮

架构 分布式 微服务 后端 服务器

Spark入门介绍与基础案例(二)

Databri_AI

spark 概念

大数据方向另一个十年开启 |《硬刚系列》第一版完结

王知无

彼得原理:我们迟早会不胜任自己的岗位?

石云升

职场经验 7月日更

改变游戏规则,微软推出TTS语言模型VALL-E_AI&大模型_InfoQ精选文章