硬核干货——《中小企业 AI 实战指南》免费下载! 了解详情
写点什么

改变游戏规则,微软推出 TTS 语言模型 VALL-E

作者:Daniel Dominguez

  • 2023-02-15
    北京
  • 本文字数:769 字

    阅读完需:约 3 分钟

改变游戏规则,微软推出TTS语言模型VALL-E

微软推出了VALL-E,这是一种用于文本到语音合成(TTS)的新型语言模型方法,它使用音频编解码器代码作为中间表示,只需听三秒钟的音频录音,即可复制任何人的声音。

 

VALL-E 是一种神经编解码器语言模型,其中 AI 对语音进行标记,并使用其算法利用这些标记来构建听起来像演讲者的波形,包括保持演讲者的音色和情绪基调等。

 

根据该研究论文,VALL-E 只需作为声音刺激的间接演讲者的三秒注册录音,就可以产生高质量的个性化语音。这样做不需要额外的结构工程、预先设计的声学特征或微调。它支持上下文学习和基于提示的零样品TTS 方法。

 

VALL-E 提供了 AI 模型的音频演示。样例之一的“Speaker Prompt”是 VALL-E 必须复制的三秒钟听觉提示。为了便于比较,“Ground Truth”是同一位演讲者使用特定短语(有点像实验中的“对照组”)录制的摘录。“Baseline”样例代表了一个典型的文本到语音合成的示例,“VALL-E”样例代表了 VALL-E 模型的输出。

 

根据评估数据,与最先进的零样本 TTS 系统相比,VALL-E 在LibriSpeechVCTK上的表现要好得多。在 LibriSpeech 和 VCTK 上,VALL-E 甚至产生了最尖端的零样本 TTS 结果。

 

近年来,由于神经网络和端到端建模的发展,语音合成领域取得了显著的进展。目前,声码器和声学模型通常用于级联的文本到语音(TTS)系统,其中mel谱图作为中间表示。来自单个演讲者或一组演讲者的高质量语音可以由复杂的 TTS 系统合成。

 

TTS 技术已经被集成到广泛的应用程序和设备中,如亚马逊的 Alexa 和谷歌助手等虚拟助理、导航应用程序和电子学习平台等。它还被用于娱乐、广告和客户服务等行业,以创造更具吸引力和个性化的体验。

 

原文链接:

https://www.infoq.com/news/2023/01/microsoft-text-to-speech-valle/


相关阅读:

微软 Azure Neural TTS 新增对 9 个“小语种”语言及口音支持

微软联合浙江大学提出全新 TTS 模型 FastSpeech,语音生成速度提高 38 倍

2023-02-15 08:005719

评论

发布
暂无评论
发现更多内容

深耕人工智能技术创新,天翼云荣获AAAI 2024竞赛冠军

编程猫

测试管理进阶 | 量力而行:避免成为替罪羊

测吧(北京)科技有限公司

金芮学院派的优秀践行者

极客天地

万界星空科技电子机电行业MES系统,2000元/年起

万界星空科技

制造业 mes 电子 电子mes 电子行业

AI给我们带来哪些方面惊喜呢?

小齐写代码

Google Adsense探索系列_第二弹(成功通过审核)

fkys

网站 Google 审核 adsense

【论文解读】| 通过大语言模型实现通用模糊测试

云起无垠

AI Agent深入浅出——以ERNIE SDK和多工具智能编排为例

飞桨PaddlePaddle

百度 BAIDU 百度飞桨 开发者说 AI Agent

墨天轮2023年度数据库获奖名单

墨天轮

数据库 opengauss oceanbase 达梦 polarDB

【线上直播】KaiwuDB 分布式系统 Range Split & Merge 原理详解

KaiwuDB

数据库 数据分区

6个受欢迎的 Angular 库

伤感汤姆布利柏

不懂技术也能轻松搭建网站!美国虚拟主机的简易指南!

一只扑棱蛾子

虚拟主机 美国虚拟主机

专精特新“广东造” | 华大北斗:从“芯”出发 挺起产业“脊梁”

江湖老铁

华为云软件开发生产线CodeArts前端DevOps实践

云计算 软件开发 华为云

详解 API 设计最佳实践

Noah

TPC-H 基准测试:Databend Cloud 与 Snowflake 对比

Databend

测试管理进阶 | 量力而行:避免成为替罪羊

测试人

软件测试 测试开发 测试管理

基于 Fluid+JindoCache 加速大模型训练的实践

阿里巴巴云原生

阿里云 云原生 Fluid

即时通讯技术文集(第33期):IM开发综合技术合集(Part6) [共12篇]

JackJiang

网络编程 即时通讯 IM

Web3.0区块链技术开发方案:mint铭文铭刻制度开发

区块链软件开发推广运营

dapp开发 区块链开发 链游开发 NFT开发 公链开发

2024年API经济的十大预测

幂简集成

API API经济

什么是DevOps

DevOps 软件开发

测试管理忠告|量力而行:避免成为替罪羊

霍格沃兹测试开发学社

海上风电:2024智慧海上风电场数字孪生系统

2D3D前端可视化开发

智慧电力 三维可视化 智慧风电场 智慧海上风电场 数字孪生风电场

小程序生命周期解析(从概念、启动、运行、销毁场景的全面解析)

天津汇柏科技有限公司

小程序开发 开发小程序

SD-WAN如何降低运维成本、简化运维工作?

Ogcloud

SD-WAN 企业网络 SD-WAN组网 SD-WAN服务商 SDWAN

改变游戏规则,微软推出TTS语言模型VALL-E_AI&大模型_InfoQ精选文章