写点什么

Lyra:谷歌新发布的超低码率语音压缩编解码器

2021 年 3 月 16 日

Lyra:谷歌新发布的超低码率语音压缩编解码器

通过语音和视频与他人在线通讯,已经逐渐成为了日常生活的一部分。为了实现这一需求,像 WebRTC 这样的实时通信框架需要高效的压缩技术和编解码器来编码(或解码)传输或存储的信号。过去几十年来,编解码器一直是媒体应用程序的重要组成部分之一,它能让消耗大量带宽的应用程序高效地传输数据,并让人们看到了随时随地进行高质量通信的希望。


也就是说,开发用于视频和音频的编解码器时,所面临的一项长期挑战就提供更高的质量、使用更少的数据并尽量降低实时通信的延迟。尽管视频看起来比音频要占用更多的带宽,但是现代视频编解码器可以达到比当今使用的某些高质量语音编解码器更低的比特率。若能结合使用低比特率的视频和语音编解码器,即使在低带宽网络中也可以提供高质量的视频通话体验。然而在过去,音频编解码器的比特率越低,语音信号的清晰度就越差,电子味也会更浓。此外,尽管有些人可以用上始终如一的高质量高速网络,但这种网络水平并没有普及。即使在网络连接良好的地区,有时也会遇到质量差、带宽低和网络连接拥塞的情况。


为了解决这一问题,我们创建了 Lyra(https://arxiv.org/abs/2102.09660),一种高质量、低比特率的语音编解码器,即使在最慢的网络上也可以用它进行语音通信。为此,我们一方面应用了传统的编解码技术,同时利用机器学习(ML)的优势和使用数千小时数据训练的模型来创建一种压缩和传输语音信号的新颖方法。

Lyra 概述

Lyra 编解码器的基本架构非常简单。它以 40 毫秒的间隔从语音中提取特征或独特的语音属性,然后将其压缩以进行传输。这些特征本身是对数梅尔声谱图,是一个代表不同频段语音能量的数字列表。由于它们是根据人类听觉响应建模的,因此传统上主要用在与感知相关的领域。另一方面,一个生成模型使用这些特征来重新创建语音信号。从这个意义上讲,Lyra 与其他传统的参数编解码器(例如 MELP)非常相似。



但是,传统的参数编解码器仅提取语音关键参数(这些参数可用于在接收端重新创建信号),结果比特率虽然很低,但通常听起来电子味很重且不自然。这些缺陷推动了新一代高质量音频生成模型的开发,这种模型不仅能够区分信号,而且还能生成全新的信号,为这一领域带来了革命性的变化。DeepMind 的 WaveNet 是这类生成模型中的排头兵,为以后的许多应用铺平了道路。此外,目前在 Duo 中使用的 WaveNetEQ(基于生成模型的丢包隐匿系统)已经展示了这种技术在实际场景中使用的途径。

Lyra 使用的新压缩方法

我们以这些模型为基准开发了一种新的模型,能够使用最少的数据来重建语音。与当今大多数流媒体和通信平台中使用的最先进波形编解码器相比,Lyra 利用这些新的自然声音生成模型的能力来保持参数编解码器的低比特率优势,同时实现较高的质量。波形编解码器的缺点是,它们需要逐个压缩并发送信号采样才能实现高质量的编码,这需要更高的比特率,并且在大多数情况下获得自然语音并不需要这么麻烦。


生成模型的一个问题是它们的计算复杂性。Lyra 使用了一个开销更低的循环生成模型(WaveRNN 的一个变体)来避免这一问题。该模型以较低的码率工作,但会并行生成不同频率范围内的多个信号,随后将其组合为所需采样率的单个输出信号。这个技巧让 Lyra 不仅可以运行在云服务器上,而且可以在中端手机上实时工作(处理延迟为 90ms,与其他传统语音编解码器相当)。然后,这个生成模型使用数千小时的语音数据来做训练和优化(像 WaveNet 一样),以准确地重新创建输入音频。

与现有编解码器的对比

自 Lyra 诞生以来,我们的任务一直是使用比特率很小的数据来提供最优质的音频。当前,免授权的开源编解码器 Opus 是基于 WebRTC 的 VOIP 应用程序中使用最广泛的编解码器,并且音频码率为 32kbps 时通常就能获得透明的语音质量,也就是说与原始音频没有显著区别。但是,虽然 Opus 可以在带宽限制更小(最低 6kbps)的环境中使用,但此时它的音频质量就会下降了。其他编解码器(Speex、MELP、AMR)能够取得与 Lyra 相当的比特率,但它们的噪音很大,声音也都是电子味。


Lyra 目前被设计为 3kbps 的码率。收听测试表明,Lyra 在这一比特率下的性能优于其他所有编解码器,并且在 8kbps 的码率上性能优于 Opus,从而将所需带宽减少了 60%以上。Lyra 可以用在带宽条件不足以提供更高比特率,且现有的低比特率编解码器无法提供足够质量的场景中。


确保公平

与任何基于 ML 的系统一样,我们必须对模型进行训练以确保其对每个人都一样有效。我们已经使用开源音频库为 Lyra 训练了数千小时的音频(其中包含 70 多种语言),然后与专家和众包听众一起验证了音频质量。Lyra 的设计目标之一是确保高质量音频体验能够普惠大众。Lyra 会在广泛的数据集上进行训练,数据集包括多种语言的语音,以确保编解码器对可能遇到的任何情况都具有稳健性。

社会影响力和我们的计划

无论是短期还是长期范畴,Lyra 这类技术的影响都是非常可观的。借助 Lyra,新兴市场中的数十亿用户可以获得高效的低比特率编解码器,从而享受比以往质量更高的音频。此外,Lyra 可以在云环境中使用,使网络条件和设备功能各异的用户能够无缝地聊天。将 Lyra 与新的视频压缩技术(例如 AV1)搭配后,即使通过 56kbps 拨号调制解调器连接到互联网的用户也可以进行视频聊天了。


Duo 已经使用 ML 来减少音频中断,并且目前正在加入 Lyra 来提高超低带宽连接上的音频通话质量和可靠性。我们将继续研究 Lyra 的性能和质量主题,以确保这一技术提供最大的可用性,还会通过 GPU 和 TPU 加速研究。我们也在研究如何使用这些技术开发低比特率的通用音频编解码器(即涵盖音乐和其他非语音用例)。


原文链接:https://ai.googleblog.com/2021/02/lyra-new-very-low-bitrate-codec-for.html

2021 年 3 月 16 日 14:061141
用户头像
赵钰莹 InfoQ高级编辑

发布了 695 篇内容, 共 407.8 次阅读, 收获喜欢 2269 次。

关注

评论

发布
暂无评论
发现更多内容

你以为在做的是微服务?不!你只是做了个比单体还糟糕的分布式单体!

程序猿DD

微服务

细粒度授权在安全领域的重要性

龙归科技

安全 iam 细粒度 ABAC PBAC

安卓系统开发架构!5214页PDF的进阶架构师学习笔记,成功入职腾讯

欢喜学安卓

android 程序员 面试 移动开发

【植树节专题】回顾TcaplusDB的十年发展史

TcaplusDB

数据库 后端 TcaplusDB Tcaplus

《未来世界的幸存者》读书笔记

SilentMacUser

极客时间 互联网 技术学习 阅读 阮一峰

寻找被遗忘的勇气(十二)

Changing Lin

3月日更

物联网常用协议:MQTT、CoAP、LwM2M、HTTP、LoRaWAN和NB-IoT

不脱发的程序猿

物联网 通信协议 28天写作 3月日更 物联网常用协议

数字孪生技术如何实现复制世界?关键的关键是…

华为云开发者社区

数据中心 数字孪生 节能 仿真 数据中心网图服务

你的终端从未如此优雅

Kareza

终端工具 3月日更 Hyper

Spring boot集成plumelog日志系统

周老师

Java spring 编程 程序员 架构

一步一步教你如何在Centos7中配置Kafka运行时环境

happlyfox

28天写作 3月日更

硬核!一文学完Flink流计算常用算子(Flink算子大全)

五分钟学大数据

大数据 flink 28天写作 3月日更

力扣(LeetCode)刷题,简单题(第27期)

不脱发的程序猿

LeetCode 面试刷题 28天写作 算法面经 3月日更

你的终端从未如此高效

Kareza

3月日更 Oh My Zsh

真·“拜师学艺”?2021中科院开源之夏,开源大牛1V1&万元奖金只等你来!

京东科技开发者

开源 开源社区

安卓应用程序开发理论!免费Android高级工程师学习资源,附面试题答案

欢喜学安卓

android 程序员 面试 移动开发

与前端训练营的日子 -- Week19

SamGo

学习笔记

系统梳理面试6大专题,阿里爆款Java面试速成笔记也太香了

周老师

Java 编程 程序员 架构 面试

知道Python中的字符串是什么吗?

华为云开发者社区

Python 编程语言 字符串 字符

如何成为一名架构师?

xcbeyond

程序人生 方法论 架构师 成长与思考 3月日更

区块链应用解决方案赋能到农产品溯源上究竟能解决什么问题?

源中瑞-龙先生

带你了解VXLAN网络中报文的转发机制

华为云开发者社区

网络 网关 VXLAN 报文 分布式网关

聊聊什么是CommonJs和Es Module及它们的区别

蛙人

前端 js ES6

一起来学习LiteOS中断模块的源代码

华为云开发者社区

代码 华为云 LiteOS 中断 中断控制器

对标阿里P9Java架构师面试题,已助我拿下字节、蚂蚁、滴滴三家Offer

Java架构追梦

Java 阿里巴巴 架构 面试 滴滴

【LeetCode】验证二叉树的前序序列化Java题解

HQ数字卡

算法 LeetCode 28天写作 3月日更

2月大事件:度目CM-Mini智能面板机全新发布,飞桨PaddleGAN“复活”李焕英

百度大脑

百度 百度大脑

技术债是什么、怎么还?你想知道的都在这一篇文章里了!

禅道项目管理

技术 技术债 问题

区块链重塑婚姻

茜茜公主

3月日更

华云大咖说 | 华云数据与瀚高软件携手共建国产云生态 助力政企用户安全可靠发展

华云数据

“新作者 新入驻 新征程”第一季获奖名单

InfoQ写作平台官方

活动专区

编译系统设计赛(华为毕昇杯)技术报告会|5月1日

编译系统设计赛(华为毕昇杯)技术报告会|5月1日

Lyra:谷歌新发布的超低码率语音压缩编解码器-InfoQ