写点什么

Lyra- 为移动互联网下一个十亿用户群体启用语音通话

Andrew Storus & Michael Chinen

  • 2021-04-12
  • 本文字数:1290 字

    阅读完需:约 4 分钟

Lyra-为移动互联网下一个十亿用户群体启用语音通话

北京时间 4 月 6 日,谷歌开源了 Lyra。Lyra 是一种新型的音频编码解码器,用于语音的编码和解码。与传统基于 DSP(数字信号处理)技术的编解码器相比,主要优势在于其可以利用机器学习产生高质量的语音呼叫,同时将音频压缩到最小 3 kbps。


据谷歌开源博客介绍,过去一年,由于新冠疫情等原因,在线语音已经变得至关重要并且随处可见,于是在今年 2 月推出了 Lyra。现在,为了让 Lyra 惠及更多人,谷歌选择将 Lyra 开源,以此让更多开发人员可以便捷地使用这一最佳编解码器,增强各类音频应用的功能,同时,推动 Lyra 更快地发展。


目前开源的版本为开发人员提供了所必须的工具,以使用 Lyra 进行音频编码和解码。同时,这一版本针对 Linux 上的 64 位 ARM Android 平台进行了优化。未来将会与社区一起扩展此代码库并开发对更多平台的支持。

Lyra 的架构

Lyra 的架构分为编码器和解码器两部分。当某人对着电话讲话时,编码器先从语音中捕获独特的语音属性(Feature),将这些属性提取为 40ms 的块然后压缩转换成字节流,通过网络发送。字节流传到电话另一端之前,解码器会通过生成模型将语音属性解码回可以在听众电话扬声器里播放的波形。这里的生成模型是一种特殊的机器学习模型,非常适合基于有限的语音属性重新创建完整的音频波形。



(图片来自 Google 开源博客)


Lyra 架构与传统的音频编解码器十分相似,传统的音频编解码器作为互联网通信的骨干力量已经有数十年了,而 Lyra 才诞生。相比之下,传统的编解码器基于数字信号处理技术(DSP)重建语音信号,而 Lyra 基于生成模型重建语音信号,后者优势显著。

Lyra 开源版本详解

为了速度更快,效率更高以及更好的软硬件交互性,Lyra 的开发团队基于 Bazel 构建项目,使用 C++ 编写代码,并使用 GoogleTest 框架做测试。Lyra 的核心 API 提供了可以在文件和数据包级别进行编码和解码的接口。还提供了完整的信号处理工具链,其中包括各种滤波器和变换器。


谷歌开源博客介绍到,我们的 Demo 集成了 Android NDK,展示了如何将本机 Lyra 代码集成到基于 Java 开发的 android 应用程序中,还提供了运行 Lyra 所需的矢量量化器等基础设施。


对于本次版本发布的用意,谷歌开源博客介绍道,我们今天将 Lyra 作为 Beta 版本发布是希望内部开发人员尽快获得使用反馈。除了 KML(核心数学内核库)之外,Lyra 将会根据 Apache 开源协议开放所有运行 Lyra 的代码。

开源之后

在过去十年中,伴随着移动设备的爆发式增长,计算能力的增长已经使得高速无线基础架构的可靠性受到威胁。对于存在这种反差的地区,尤其是发展中国家,当下一个十亿互联网用户群体需要接入网络,他们之间能紧密联系的可能性将会很低。即使在连接高度可靠的地区,远程办公的出现也加剧了移动数据传输的带宽限制。虽然 Lyra 可以将原始音频压缩到 3 kbps,并使其质量优于其他编解码器(例如 Opus),但它的目标不是成为一个完整的替代方案,而是可以在高压缩比,高质量的情况下节省有意义的带宽。


这些趋势为 Lyra 提供了动力,也是开发团队专注于实时语音通信的原因。除此外,Lyra 还有其他一些非常独特的应用,例如存档大量语音,借助高效计算的 Lyra 编码器节省电池,缓解多人试图同时拨打电话的紧急情况下的网络拥塞等等。

2021-04-12 15:119082
用户头像

发布了 74 篇内容, 共 32.2 次阅读, 收获喜欢 83 次。

关注

评论

发布
暂无评论
发现更多内容

2026中国电子展

AIOTE智博会

电子展 深圳电子展 电子信息展 电博会

PromptPilot 实操教程:这套 Prompt 手法包教包会

火山引擎开发者社区

火山引擎

这个Web新API让任何内容都能画中画!

Immerse

MySQL内幕揭秘:探索MySQL调优指南,解锁MySQL的强大功能

互联网工科生

百度智能云x中科大脑:「城市智能体」如何让城市更会思考

百度Geek说

为什么“低代码”要成为新系统的基础能力?

星云低代码中间件

ide 低代码 开发平台 可视化开发

智慧学堂:一站式在线教育解决方案

微擎应用市场

打工人必看!ToDesk/网易UU/向日葵:远程办公文件协作效率与安全实测

小喵子

网易 文件传输 向日葵 ToDesk ToDesk云电脑

VIP 菜谱小程序系统:美食应用解决方案

微擎应用市场

中小企业安全焦虑终结者:腾讯iOA基础版五大场景防护实测

穿过生命散发芬芳

腾讯iOA场景体验官

linux-screen命令使用

天翼云开发者社区

CDN 操作系统 screen

证件照制作冲印小程序系统:多平台解决方案

微擎应用市场

API接口赋能1688采购全流程:从商品获取到下单支付一键贯通

Noah

基于日志的 JuiceFS 可观测最佳实践

火山引擎开发者社区

字节跳动 火山引擎

英特尔可变显存技术让32GB内存笔记本流畅运行Qwen 30B大模型

科技热闻

字节跳动 VeOmni 框架开源:统一多模态训练效率飞跃!

火山引擎开发者社区

字节跳动

手边酒店 V2 系统:助力酒店民宿轻松搭建专属订房小程序

微擎应用市场

低空经济增长周期,如何让无人机飞得更稳更远?

DevOps和数字孪生

低空经济 飞行棋

解析 vLLM 架构及源码系列:KVCache初始化之V1版本分析

Jason黄

vLLM源码

评估机器翻译模型性别偏见的数据集发布

qife122

机器翻译 数据集

(在线CAD控件)网页CAD与Mapbox结合实现在线地图和CAD编辑

WEB CAD SDK

用友BIP人力五大智能体发布,洞见人才价值 驱动组织进化

用友BIP

Pro Coder说:那些让文心快码“听话”的方法

Comate编码助手

代码自动生成 AI辅助编程 AI 编程 文心快码 文心快码Zulu

5个技巧让文心快码成为你的后端开发搭子

Comate编码助手

AI辅助编程 AI 编程 文心快码 文心快码Zulu

我们如何识别软件缺陷并优化代码性能

qife122

软件工程 Bugzilla

深度学习教材自动化翻译系统架构解析

qife122

机器翻译 自动化系统

分享背后的设计理念:为什么我们要重新设计工业数据管理平台

TDengine

tdengine 工业数据 idmp

OpenLayers与Vue.js结合实现前端地图应用

知识浅谈

地图 openlayers

解码社交媒体监控的战略意义

沃观Wovision

海外舆情监控 沃观Wovision 海外舆情监测

一文读懂:什么是私有化即时通讯?企业为什么要选择私有化

BeeWorks

即时通讯 IM 私有化部署

企业内部办公聊天软件BeeWorks:稳定的IM通讯服务

BeeWorks

即时通讯 IM 私有化部署

Lyra-为移动互联网下一个十亿用户群体启用语音通话_语言 & 开发_InfoQ精选文章