写点什么

实时互动场景下,音频的技术变迁与机遇

  • 2021-03-09
  • 本文字数:2669 字

    阅读完需:约 9 分钟

实时互动场景下,音频的技术变迁与机遇

AI 大模型超全落地场景&金融应用实践,8 月 16 - 19 日 FCon x AICon 大会联诀来袭、干货翻倍!

本文首发于 InfoQ,由声网 Agora 开发者社区 与 InfoQ 联合策划,并由 InfoQ 审校。


音频技术中有很多细节会影响到实时互动的体验。随着技术和应用场景的变化,音频也正在与更多的学科、技术结合。在实时互动场景下,哪些因素会影响音频的体验?相比于视频技术,音频技术是否发展较慢?面向 RTC 场景,音频技术又需要作出哪些改变?......为了解答这些问题,我们采访了声网 Agora 音频体验与工程总监陈若非,请他来聊一聊在实时互动场景下音频技术的变迁与机遇。


Q:相对于研究网络架构、大前端等方面的工程师来讲,研究音频的工程师比较少。具体来讲,音频工程师都会研究哪些相关技术?


陈若非:声音是信息和情感传递的载体,所以音频相关的研究基本会围绕如何让信息和情感更好的被传递和感知理解展开的。音频领域相对专业细分,但是我们细挖一下就会发现音频相关的研究方向其实很多,涉及到的交叉学科也很广。从交互对象来说我们可以分为两类:人机交互的音频和人人交互的音频。从交互的实时性来分,又可以分成实时的交互和非实时的交互。 人机交互主要研究如何让机器更好的理解声音和生成声音,通过 ASR、MIR、TTS 等技术来实现人类希望机器完成的任务。人人交互的部分更多和人的感知系统关联,其优化目标会围绕如何让人更好的感知音频来展开。实时的人人音频交互又在此基础上提出了更多的约束条件,优化需要用更低的延时、更小的计算量和因果系统下展开。我所在的声网就主要聚焦于实时互动音频领域的研究,所以我们会从采集播放、编解码、前后处理、传输的全链路去研究如何在尽可能低的延时和计算量下提供更好的音频互动体验。

 

Q:聊技术变迁之前,首先梳理一下概念,在实时互动的场景下,哪些因素会影响音频的体验?


陈若非:实时互动音频是端到端,嘴到耳的体验,所以全链路上所有的组成部分都有可能影响音频体验。我们可以从采、播、滤、压、传五个方面去分解技术对音频体验的影响。首先说采集,不同麦克风的声学属性差异就对音频体验有决定性的影响,从拾音的距离,方向性到精度。被拾取的声音信号经过模数转换,信号采样也会造成声音的损失,采样率越高声音的细节就会保留的更好。所以一个高质量的麦克风会从源头上提供更好的音频源。类似的,一个高质量的播放设备可以更好的保留更多声音细节。然后前后处理是音频链路上非常重要的一环,大家常听到的 3A 技术都属于这个范畴,前后处理对原始采集的信号或者即将要播放的信号做二次处理,来滤除其中的干扰信号,比如回声、噪音、杂音、啸叫等,同时对目标的音频做音量和听感上的增强。另外在一些音效玩法里,我们也会通过对信号的处理实现变声、美声等特定声音效果。再说下编解码和传输,这两者是强耦合的。原理上编码的采样率和码率越高,声音的保真度就更好,听端的体验也更好。但现实中网络的带宽是有限制的,还会经常出现丢包抖动等不利情况。好的编解码算法可以通过对声学模型和信息冗余的深入理解,在相对低的码率下实现高品质的声音保留,从而保证在各种弱网情况下的稳定表现。 同时我们也需要通过开发信源信道的弱网对抗技术,在保证低延时的基础上,减少丢包抖动带来的听感影响。


Q:行业中有种看法,认为音频技术相对于视频技术,似乎发展会稍慢一些?你怎么看待目前音频技术的发展?


陈若非:技术的进步都是需求推动的。电话时代的音频技术曾经经历火热的发展,一些经典理论如线性预测、自适应滤波,很好的解决了一些基础可用的问题,很多技术到今天还在被沿用。近几十年 VOIP 的技术也得到了长足的发展,我们今天看到 VOIP 的分钟数能在通信领域占据越来越大的份额,背后也离不开音频研究人员长期的扎实工作和持续进步。音频需要较高的技术门槛,全链路的木桶效应明显,设备耦合重碎片化严重,改进主观不易被感知,这些因素都决定了音频想要出成果需要坐的住冷板凳,需要长期主义的坚持。

 

近些年 AI 技术的兴起给音频注入了新的活力,也给很多长时间不好解决的问题提供了新的思路。人机语音交互成为了一个音频领域新的热点,相关的技术也蓬勃发展,目前在识别、合成等领域都取得了长足的进步。而在最近的几年,也看到了不少 AI 技术和 RTC 领域结合的实践成果,让人看到了进一步提升音频体验的巨大空间。从外部环境来看,在看腻了千人一面的直播后,越来越多的人开始喜欢心理包袱更小,想象空间更大的音频社交,近期的行业里也开始出现新的浪潮。相信在这种内外因的结合下,会有更多的人开始研究实时互动音频的体验,也非常期待这个行业会给大家带来不一样的新体验。

 

Q:从实际来看,目前音频在实时领域还存在哪些技术挑战?


陈若非:实时互动音频领域还有很多技术挑战需要我们的攻克。我这里提两个大点。第一,碎片化。传统的手机厂商是一台台调试算法和逐一通过声学测试出厂的。如果我们要在不同设备、环境、网络条件下提供一致性的高质量音频体验,我们就需要寻找新的突破。在接下来万物互联的时代,这种需求会愈加强烈,而这方面技术的突破会带来巨大的价值。 第二,主观性。音频体验是一个非常主观的存在,每个人的感知差异和喜好也迥异。我们需要找到更好的方法来匹配这种个性化的喜好和提供更好的量化评价体系。


Q:基于你对业界、学界的观察,你认为音频技术面向 RTC 场景,接下来需要作出哪些改变?(如算法、技术的结合等)


陈若非:我认为实时互动音频的未来应该有下面三个部分。第一,AI 和信号处理的深度融合。经典的信号处理和声学模型已经能帮我们解决很多问题,当然也不少解决不好的问题。在 AI 的有效融合下,可以有效的补充传统算法的不足,在合理的代价下更好的解决我们的问题,而非简单视 AI 为灵丹妙药包治百病。第二,符合时代的评价标准。目前很多音频标准是给通讯设计的,真正如聚一堂的互动体验需要对应的评价标准,如何更好的评价互动性,沉浸感是我们需要去探索的地方。第三,真正的沉浸感和伴随感。人们开始不满足于单纯的信息交互,进一步的追求面对面的互动体验和情感伴随,而随着网络和设备条件的进一步成熟,这种未来也成为可能。音频全链路都需要升级,从声场的采集到还原,甚至增强现实,来创造出真正沉浸式伴随的体验,这也会将会是一条漫长的探索之路。我们在声网一直致力于探索这些长年存在的行业难题,也欢迎各路有想法有追求的朋友联系我,共同交流探索,共同敲开未来音频之门。


采访嘉宾介绍:


陈若非,声网 Agora 音频体验与工程总监。负责基础音频技术的架构和研发,主要研究基于模型重建的语音增强技术,对回声消除,降噪,增益控制,多麦,音效处理,丢包隐藏等语音技术有丰富经验。曾任职 YY 基础技术研发部门,担任 IEEE 权威语音期刊和会议专业 reviewer。

2021-03-09 15:131878

评论

发布
暂无评论
发现更多内容

7大迹象,表明你的DevOps 做对了!

SoFlu软件机器人

2022重磅:增长法则-巧用数字营销 突破企业困局

博文视点Broadview

java培训:Java类加载机制的理解

@零度

JAVA开发 类加载机制

混合编程:如何用pybind11调用C++

华为云开发者联盟

c++ Python API 混合编程 pybind11

web前端培训:vue3源码中细节知多少

@零度

Vue 前端开发

80 行代码实现简易 RxJS

CRMEB

郑州轻工业大学——HarmonyOS宠物健康系统的开发分享

HarmonyOS开发者

HarmonyOS 健康检查

鉴机识变,面向未来|RocketMQ Summit 2022 即将来袭

阿里巴巴云原生

阿里云 开源 RocketMQ 云原生 开源消息队列

2022年中国智慧医疗行业洞察

易观分析

智慧医疗

ModStartCMS模块化建站系统 v3.3.0 组件功能升级,事件触发增强

ModStart开源

云效发布策略指南|滚动、分批、灰度怎么选?

阿里云云效

云计算 阿里云 云原生 持续交付 发布策略

不能Hook的人生不值得 jsHook和模拟执行

奋飞安全

安全 js hook jshook

史上最强代码自测方法,没有之一!

万俊峰Kevin

微服务 单元测试 go-zero 测试工具 Go 语言

一个关于 += 的谜题

AlwaysBeta

Python 编程语言

基于STM32+ESP8266+华为云IoT设计的智能门锁

DS小龙哥

2月月更

理论+实践,带你掌握动态规划法

华为云开发者联盟

AI 算法 动态规划法 子问题

互联网人的命运,就是活到30岁都难?

码农参上

人生 互联网人 打工人

基于 Kafka 的实时数仓在搜索的实践应用

vivo互联网技术

kafka 服务器 搜索 数据舱

如何写好一个Java类?

蜜糖的代码注释

Java 整洁代码 2月月更

大数据培训:Flink的提交模式

@零度

大数据 flink

模块八作业

黄秀明

「架构实战营」

Hudi Bucket Index 在字节跳动的设计与实践

字节跳动数据平台

数据库 字节跳动 数据湖 Hudi

优化| 手把手教你学会杉数求解器(COPT)的安装、配置与测试

杉数科技

线性规划 求解器 优化求解器 混合整数规划 杉数科技

日志管理系统,多种方式总结

架构 日志 slf4j logback

分享两个常见的搜索算法:BFS和DFS

华为云开发者联盟

算法 DFS 深度优先搜索 BFS 搜索算法

喜报!龙蜥操作系统&龙蜥社区双双荣登2021“科创中国”开源创新榜!

OpenAnolis小助手

开源 操作系统 创新

边缘计算场景下Service Mesh的延伸和扩展

华为云原生团队

开源 边缘计算 边缘技术 边缘 边缘云

Android技术分享| 【你画我猜】Android 快速实现

anyRTC开发者

音视频 移动开发 互动白板 Andriod 你画我猜

如何通过 draftjs 设计留言框

全象云低代码

前端 低代码 留言 draftjs 留言框

移动开发er,10万奖金等你来战!

Speedoooo

活动 前端开发 移动开发 黑客马拉松 黑客松

乘冬奥之风:北京2022年冬奥会用户信息获取偏好专题分析

易观分析

冬奥会用户分析

实时互动场景下,音频的技术变迁与机遇_语言 & 开发_Jeff_InfoQ精选文章