【AICon】探索RAG 技术在实际应用中遇到的挑战及应对策略!AICon精华内容已上线73%>>> 了解详情
写点什么

改变游戏规则,微软推出 TTS 语言模型 VALL-E

作者:Daniel Dominguez

  • 2023-02-15
    北京
  • 本文字数:769 字

    阅读完需:约 3 分钟

改变游戏规则,微软推出TTS语言模型VALL-E

微软推出了VALL-E,这是一种用于文本到语音合成(TTS)的新型语言模型方法,它使用音频编解码器代码作为中间表示,只需听三秒钟的音频录音,即可复制任何人的声音。

 

VALL-E 是一种神经编解码器语言模型,其中 AI 对语音进行标记,并使用其算法利用这些标记来构建听起来像演讲者的波形,包括保持演讲者的音色和情绪基调等。

 

根据该研究论文,VALL-E 只需作为声音刺激的间接演讲者的三秒注册录音,就可以产生高质量的个性化语音。这样做不需要额外的结构工程、预先设计的声学特征或微调。它支持上下文学习和基于提示的零样品TTS 方法。

 

VALL-E 提供了 AI 模型的音频演示。样例之一的“Speaker Prompt”是 VALL-E 必须复制的三秒钟听觉提示。为了便于比较,“Ground Truth”是同一位演讲者使用特定短语(有点像实验中的“对照组”)录制的摘录。“Baseline”样例代表了一个典型的文本到语音合成的示例,“VALL-E”样例代表了 VALL-E 模型的输出。

 

根据评估数据,与最先进的零样本 TTS 系统相比,VALL-E 在LibriSpeechVCTK上的表现要好得多。在 LibriSpeech 和 VCTK 上,VALL-E 甚至产生了最尖端的零样本 TTS 结果。

 

近年来,由于神经网络和端到端建模的发展,语音合成领域取得了显著的进展。目前,声码器和声学模型通常用于级联的文本到语音(TTS)系统,其中mel谱图作为中间表示。来自单个演讲者或一组演讲者的高质量语音可以由复杂的 TTS 系统合成。

 

TTS 技术已经被集成到广泛的应用程序和设备中,如亚马逊的 Alexa 和谷歌助手等虚拟助理、导航应用程序和电子学习平台等。它还被用于娱乐、广告和客户服务等行业,以创造更具吸引力和个性化的体验。

 

原文链接:

https://www.infoq.com/news/2023/01/microsoft-text-to-speech-valle/


相关阅读:

微软 Azure Neural TTS 新增对 9 个“小语种”语言及口音支持

微软联合浙江大学提出全新 TTS 模型 FastSpeech,语音生成速度提高 38 倍

公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2023-02-15 08:005008

评论

发布
暂无评论
发现更多内容

微信 ClickHouse 实时数仓的最佳实践

科技热闻

智慧园区一体化管理平台开发,园区智能化集成系统

电微13828808271

字节跳动如何系统性治理 iOS 稳定性问题

字节跳动终端技术

ios 字节跳动 APM APP稳定性

恒源云(GPUSHARE)_训练一个专门捣乱的模型

恒源云

人工智能 深度学习 算力

微信 ClickHouse 实时数仓的最佳实践

科技热闻

龙智携手Atlassian亮相GOPS全球运维大会,助力企业高效开发与运维

龙智—DevSecOps解决方案

运维 运维大会 GOPS大会

本周话题:元宇宙到底是不是未来?

InfoQ写作社区官方

话题讨论 元宇宙

《致命愿望》:与魔鬼签订契约

爱奇艺技术产品团队

CWE4.6标准中加入 OWASP 2021 TOP10

华为云开发者联盟

漏洞 cwe 软件安全 CWE4.6 OWASP

使用kubeadm快速搭建K8s环境

walker12138

【活动预告】下一代数据平台走向何方?

SphereEx

大数据 大前端 ShardingSphere SphereEx 线上沙龙

Linux学习有用吗?《Linux一学就会》教你如何学会Linux

侠盗安全

Linux 运维 云计算架构师 linux电子书

【活动预告】Apache ShardingSphere 5.0.0 全新 Database Plus 架构演进

SphereEx

开源社区 ShardingSphere TiDB SphereEx 线下沙龙

ETL工具算法构建企业级数据仓库五步法

大数据技术指南

11月日更

Apache Tomcat 7.x安全加固指南

喀拉峻

网络安全 安全 信息安全

10年阿里人告诉你:秒杀系统设计就该这么玩

热爱java的分享家

Java 架构 程序人生 编程语言 经验分享

SAP 公有云和私有云解决方案概述

Jerry Wang

公有云 云平台 SAP 11月日更 公有云私有云

模块四 千万级学生管理系统的考试试卷存储方案

加速云原生应用落地,焱融 YRCloudFile 与天翼云完成兼容性认证

焱融科技

云计算 分布式 云原生 高性能 文件存储

Kvrocks 发布 Exporter 工具

Kvrocks

redis Prometheus kvrocks

Tapdata “设擂招贤”携手 LeetCode 举办全球极客技术竞赛

tapdata

破解数据匮乏现状:纵向联邦学习场景下的逻辑回归(LR)

华为云开发者联盟

联邦学习 数据隐私 数据安全 逻辑回归 纵向联邦学习

【干货】大数据开发之Spark总结

@零度

大数据 spark

HBase 的协处理器详细剖析

五分钟学大数据

11月日更

下单延迟10s撤单性能测试

FunTester

性能测试 延迟队列 接口测试 测试框架 FunTester

先到先得!Alibaba甩出第四次更新的JDK源码高级笔记(终极版)

热爱java的分享家

Java 源码 jdk 面试 经验分享

架构实战营模块 9 作业指导

华仔

架构实战营

Java 项目中使用 Resilience4j 框架实现异步超时处理

码语者

Java TimeLimiter 超时管理

高可用是什么意思啊?行云管家支持高可用部署吗?

行云管家

高可用 服务器 IT运维

质量基础设施“一站式”线上平台搭建,NQI一站式综合平台解决方案

电微13828808271

SAP ERP classification 和 SAP Cloud for Customer 的同步

Jerry Wang

中间件 SAP ERP C4C 11月日更

改变游戏规则,微软推出TTS语言模型VALL-E_AI&大模型_InfoQ精选文章