写点什么

改变游戏规则,微软推出 TTS 语言模型 VALL-E

作者:Daniel Dominguez

  • 2023-02-15
    北京
  • 本文字数:769 字

    阅读完需:约 3 分钟

改变游戏规则,微软推出TTS语言模型VALL-E

微软推出了VALL-E,这是一种用于文本到语音合成(TTS)的新型语言模型方法,它使用音频编解码器代码作为中间表示,只需听三秒钟的音频录音,即可复制任何人的声音。

 

VALL-E 是一种神经编解码器语言模型,其中 AI 对语音进行标记,并使用其算法利用这些标记来构建听起来像演讲者的波形,包括保持演讲者的音色和情绪基调等。

 

根据该研究论文,VALL-E 只需作为声音刺激的间接演讲者的三秒注册录音,就可以产生高质量的个性化语音。这样做不需要额外的结构工程、预先设计的声学特征或微调。它支持上下文学习和基于提示的零样品TTS 方法。

 

VALL-E 提供了 AI 模型的音频演示。样例之一的“Speaker Prompt”是 VALL-E 必须复制的三秒钟听觉提示。为了便于比较,“Ground Truth”是同一位演讲者使用特定短语(有点像实验中的“对照组”)录制的摘录。“Baseline”样例代表了一个典型的文本到语音合成的示例,“VALL-E”样例代表了 VALL-E 模型的输出。

 

根据评估数据,与最先进的零样本 TTS 系统相比,VALL-E 在LibriSpeechVCTK上的表现要好得多。在 LibriSpeech 和 VCTK 上,VALL-E 甚至产生了最尖端的零样本 TTS 结果。

 

近年来,由于神经网络和端到端建模的发展,语音合成领域取得了显著的进展。目前,声码器和声学模型通常用于级联的文本到语音(TTS)系统,其中mel谱图作为中间表示。来自单个演讲者或一组演讲者的高质量语音可以由复杂的 TTS 系统合成。

 

TTS 技术已经被集成到广泛的应用程序和设备中,如亚马逊的 Alexa 和谷歌助手等虚拟助理、导航应用程序和电子学习平台等。它还被用于娱乐、广告和客户服务等行业,以创造更具吸引力和个性化的体验。

 

原文链接:

https://www.infoq.com/news/2023/01/microsoft-text-to-speech-valle/


相关阅读:

微软 Azure Neural TTS 新增对 9 个“小语种”语言及口音支持

微软联合浙江大学提出全新 TTS 模型 FastSpeech,语音生成速度提高 38 倍

2023-02-15 08:005261

评论

发布
暂无评论
发现更多内容

Storm概念与架构

穿过生命散发芬芳

Storm 10月月更

3分钟了解CDN的工作原理

阿泽🧸

CDN 10月月更

记一次网络安全应急响应流程

网络安全学海

黑客 网络安全 信息安全 渗透测试 WEB安全

StarRocks极客营 | 90天,17名新晋贡献者,SQL Planner 实战回顾

StarRocks

数据库

jmeter 扩展自定义java 插件

kcnf

整合Mybatis、Servlet、Mysql、Axios、Filter、Session写一个入门级项目:非常适合初接触JavaWeb的小白白来进阶

游坦之

10月月更

【分布式技术专题】「架构实践于案例分析」总结和盘点目前常用分布式技术特别及问题分析

洛神灬殇

分布式 微服务 10月月更 微服务化

计算图中两个顶点的所有路径,你会吗

JAVA旭阳

Java 算法 10月月更

游族网络xStarRocks:高效助力数据查询,灵活应对多维分析

StarRocks

数据库

【JavaWeb】一篇承载Ajax、Axios、Json的学习笔记~

游坦之

10月月更

【资损】发布环境中的兼容性控制设计

小明Java问道之路

Java 架构 安全 10月月更 资损

如何对查询结果进行排序

芯动大师

Python 排序 10月月更

【web 开发基础】PHP 自定义函数之函数声明 -PHP 快速入门 (24)

迷彩

函数 10月月更 web开发基础 PHP基础 函数的定义

【一Go到底】第二十九天---切片入门

指剑

Go golang 10月月更

Java | Date类

陌上

Java 编程 10月月更

【漏洞介绍】驱动文件Microsoft32k.sys中的漏洞分析

网络安全学海

网络安全 安全 信息安全 渗透测试 漏洞挖掘

Vue复刻华为官网 (一)

游坦之

10月月更

【JavaWeb】过滤器和监听器,就这?

游坦之

10月月更

Java | StringBuilder类/StringBuffer类

陌上

Java 编程 10月月更

达梦数据库主备安装部署

For

Vue复刻华为官网 (二)

游坦之

10月月更

【资损】系统迭代过程中的兼容性设计

小明Java问道之路

Java 架构 安全 10月月更 资损

软件架构 & 研发效率

agnostic

研发效能

数据库&基本SQL语法

w010w

数据库 sql 10月月更

从AI生成视频看人工智能未来发展趋势​

felix

人工智能 AI 图片生成

调度线程池ScheduledThreadPoolExecutor源码解析

JAVA旭阳

Java 线程池 10月月更

Vue实现日期选择器

游坦之

10月月更

CountDownLatch源码硬核解析

JAVA旭阳

Java 线程 10月月更

String源码分析(三)

知识浅谈

string 10月月更

程序的地址分配

计算机基础

统计匹配检索规则的物品数量

掘金安东尼

算法 10月月更

改变游戏规则,微软推出TTS语言模型VALL-E_AI&大模型_InfoQ精选文章