改变游戏规则，微软推出TTS语言模型VALL-E_AI&大模型_InfoQ精选文章

AI实践哪家强？来 AICon，解锁技术前沿，探寻产业新机！了解详情 



 写点什么

登录/注册

改变游戏规则，微软推出TTS语言模型VALL-E

微软推出了VALL-E，这是一种用于文本到语音合成（TTS）的新型语言模型方法，它使用音频编解码器代码作为中间表示，只需听三秒钟的音频录音，即可复制任何人的声音。

VALL-E 是一种神经编解码器语言模型，其中 AI 对语音进行标记，并使用其算法利用这些标记来构建听起来像演讲者的波形，包括保持演讲者的音色和情绪基调等。

根据该研究论文，VALL-E 只需作为声音刺激的间接演讲者的三秒注册录音，就可以产生高质量的个性化语音。这样做不需要额外的结构工程、预先设计的声学特征或微调。它支持上下文学习和基于提示的零样品TTS 方法。

VALL-E 提供了 AI 模型的音频演示。样例之一的“Speaker Prompt”是 VALL-E 必须复制的三秒钟听觉提示。为了便于比较，“Ground Truth”是同一位演讲者使用特定短语（有点像实验中的“对照组”）录制的摘录。“Baseline”样例代表了一个典型的文本到语音合成的示例，“VALL-E”样例代表了 VALL-E 模型的输出。

根据评估数据，与最先进的零样本 TTS 系统相比，VALL-E 在LibriSpeech和VCTK上的表现要好得多。在 LibriSpeech 和 VCTK 上，VALL-E 甚至产生了最尖端的零样本 TTS 结果。

近年来，由于神经网络和端到端建模的发展，语音合成领域取得了显著的进展。目前，声码器和声学模型通常用于级联的文本到语音（TTS）系统，其中mel谱图作为中间表示。来自单个演讲者或一组演讲者的高质量语音可以由复杂的 TTS 系统合成。

TTS 技术已经被集成到广泛的应用程序和设备中，如亚马逊的 Alexa 和谷歌助手等虚拟助理、导航应用程序和电子学习平台等。它还被用于娱乐、广告和客户服务等行业，以创造更具吸引力和个性化的体验。

原文链接：

https://www.infoq.com/news/2023/01/microsoft-text-to-speech-valle/

相关阅读：

微软 Azure Neural TTS 新增对 9 个“小语种”语言及口音支持

微软联合浙江大学提出全新 TTS 模型 FastSpeech，语音生成速度提高 38 倍

评论

发布

暂无评论

1000道最新整理的Java 技术考题及解答，抢先直通TMDBATJW拿高薪

Java 编程程序员架构面试

Mokito 单元测试与 Spring-Boot 集成测试

Java 单元测试集成测试 Mokito Spring boot starter test

BOE（京东方）2020年报发布：营收1355.53亿元净利润大幅增长162.46%

智慧党建平台搭建,组织部干部任免系统开发

币安智能链智能合约Dapp系统开发技术

薇電13242772558

DNS原理及其应用

c++ 后台开发网络编程 DNS 服务器开发

Flume拦截器实战

大数据技术指南

flume 4月日更

翻译：《实用的Python编程》09_00_Overview

百度搜索与推荐引擎的云原生改造 | Geek大咖说第一期

app启动速度优化，分享一点面试小经验，最全的BAT大厂面试题整理

欢喜学安卓

android 程序员面试移动开发

Kubenav: 使用手机管理你的 K8S 集群

Kubernetes k8s多集群管理

消息队列（如 Kafka 等）的应用场景

五分钟学大数据

kafka 消息队列 4月日更

如何完成日千万级别以上的订单对账（一）

Kotlin @inline内联函数

全网下载量过亿！12万字阿里内部Java面试手册有多强？

Java架构追梦

Java 架构面试成长笔记阿里巴巴内部资料

龙归科技|邀您参与全球「身份管理日」

上次挂在了京东（Java岗）二面不服气，这次终于拿下offer，皇天不负有心人了也是！

Java 编程程序员架构面试

anyRTC 实时音视频打造安全合规壁垒

anyRTC开发者

网络安全 WebRTC RTC

C统计量/ C statistic

Geek_Goldensikaiqi

阿里内部疯传的《JDK源码剖析手册》！在GitHub上已高达百万访问量！

Java架构之路

Java 程序员架构面试编程语言

ThreadLocal超深度源码解读，为什么要注意内存泄漏？不要道听途说，源码底下见真知！

ThreadLocal Java源码

阿里P8总结的1530页Java编程核心思想笔记，Github访问破百万！

Java架构之路

Java 程序员架构面试编程语言

线上500万数据查询时间在37秒，作者将问题解决了，我却看到了更大的坑

Java 面试题目最全集合1000+ 大放送，能答对70%就去BATJTMD

Java 编程程序员架构面试

项目管理之相关方管理

项目管理复盘相关方管理

PHPStorm 安装Xdebug插件开启单步调试

win10 Xdebug PHPStorm

思码逸Merico 完成 A 轮融资，发布企业版 3.0 新产品，拓展研发效能边界

InfoQ 的朋友们

「最具技术影响力企业号 TOP10 」—— InfoQ 写作平台【 1 周年盛典】

InfoQ写作社区官方

1 周年盛典热门活动

4.16-17 | 阿里云技术大咖分享新内容新交互时代下的新技术、新机会

阿里云CloudImagine

阿里云音视频 WebRTC 直播架构

2021年金三银四跳槽季，呕心沥血整理出Java10W字面经，首次公布！

Java架构之路

Java 程序员架构面试编程语言

金三拿到5个offer，全靠这份Alibaba内部Java面试指南

Java 编程程序员架构面试