企业在业务安全与数据合规过程中有哪些实践与挑战?戳此了解 了解详情
写点什么

腾讯多媒体实验室:信号处理×深度学习,语音通信新技术的研发实践

  • 2019 年 11 月 12 日
  • 本文字数:1587 字

    阅读完需:约 5 分钟

腾讯多媒体实验室:信号处理×深度学习,语音通信新技术的研发实践

随着 5G 时代的正式到来,又一次产业革命大潮正在悄然而至,人工智能、物联网 loT、云计算、5G 等前沿技术出现在大众视野。11 月 6 日-7 日,Techo 开发者大会在北京举行,在音视频及通信专场上,腾讯多媒体实验室专家研究员肖玮带来以“信号处理遇见深度学习,语音通信新技术的研发实践”为主题的演讲,从语音通信面临的挑战,以及智慧语音通信技术的发展两方面介绍深度学习为语音通信带来的创新。



(腾讯多媒体实验室专家研究员 肖玮)


Techo 开发者大会由腾讯云发起,汇聚全球顶尖行业专家和技术爱好者,通过一场主论坛、18 个技术方向分论坛和多场创新互动活动,为全球开发者搭建一个开放、中立、活跃的技术平台,助力于开发者的能力成长和实践创新。本届大会聚集来自全球 5000 多位开发者,并邀请超 150 位业界大咖围绕前沿技术发展进行分享和交流。


作为多媒体技术的重要组成部分,语音通信扮演着非常重要的角色,而语音通信体验则成为了打造沉浸式多媒体体验的关键一步。


相较于模拟信号时代的语音通信,数字信号时代的语音通信在流程上要复杂许多。“从技术层面出发,语音通信主要存在三个技术挑战。”据肖玮介绍,其一,信源层面上,如何获得近似无噪声、无回声、无混响的声音信号源?其二,传输链路层面上,如何兼容不同的的压缩与传输标准,并确保传输稳定?其三,工程化层面上,如何确保功能模块在维持低复杂度的同时,做到更优秀的性能及低时延?这三项挑战成为摆在语音通信技术面前的“三座大山”。


看似简单的数字语音通信,其实存在着众多需要解决的问题以及复杂的流程,想要打造一套具备普适性的语音通信系统,自然少不了深度学习的助力。


肖玮介绍,多媒体实验室将深度学习应用于信号处理过程中,一方面,基于深度学习,对瞬态等非平稳噪声形成有效抑制,实现语音增强;另一方面,结合经典信号处理和深度学习设计了音频超分技术,前向兼容现有协议前提上,提升信号的分辨率,将窄带语音输入腾讯云,补足窄带语音所丢失的部分,提升回放内容质量。同时,轻量级设计方法,能够保证模型小,可以在云端(支持大并发)或者终端(低功耗)部署。


此外,由于信号传输过程中可能出现的衰减等问题,在转码的过程中很容易出现转码失真的情况,影响音频回放的质量。为了解决这一问题,打造了一套盲式下行后处理技术。该技术兼容包括 ITU-T G.711 在内的各种标准协议,并且可以与音频超分协同;无需修改现有的通信协议,可降低转码失真,同时具备便于部署的轻量级建模的特性。


“借助深度学习,我们打通了从上行到传输再到下行的完整链路,这一系列技术不仅性能强大,同时又具备着轻建模,易部署的特性,能够广泛应用于基于数字信号传播的语音通话中。”肖玮表示,基于深度学习手段,腾讯多媒体实验室将语音信号处理与人工智能技术进行深入结合,打造出端到端的智慧语音通信解决方案,实现自然的人与人之间的交流。


作为腾讯旗下顶尖的音视频通信和处理研发团队,腾讯多媒体实验室在标准制定方面已经取得了令人瞩目的成绩,有近 50 项提案被下一代视频编码标准 VVC/H.266 采纳。此外,在虚拟现实(VR)、点云(PCC)、网络传输协议 (DASH)、多媒体系统(OMAF、CMAF、NBMP) 等相关多媒体标准中也取得了突破性进展,获得多项标准核心专利。


在 5G 浪潮下,多媒体的技术和形式不断发生改变,高效率低延迟的传输,带来了更丰富的落地场景,让 8K、VR、AI 更加触手可及。腾讯多媒体实验室也开始在沉浸式媒体和泛媒体方向发力,目前,多媒体实验室已经产出了相应的 SDK(软件开发工具包)供文旅以及教育行业使用,未来将会在融媒体、新媒体等更多更丰富的场景落地,为用户带来极具 5G 时代色彩的沉浸式体验。


提升语音通信的质量只是智慧语音通信的一个侧面,它能够实现的功能则远不止于此。肖玮表示,随着智慧语音通信技术的进一步发展,未来,腾讯多媒体实验室也将持续进行技术创新,让沉浸式音视频体验更加触手可及。


2019 年 11 月 12 日 19:53634

评论

发布
暂无评论
发现更多内容

【管理笔记13】行销能力与应变行为

俊毅

手把手教你爬取优酷电影信息-2

happlyfox

学习 28天写作 2月春节不断更

克服云安全挑战的5种方法

浪潮云

云计算

微信小程序开发笔记(一)

陈飞

小程序

【Python】关于 Type Hints 你应该知道这些

zhujun

Python

为您收录的操作系统系列 - 线程小常识

Arvin

线程

基于SpringBoot实现文件的上传下载

Java鱼仔

springboot

28天瞎写的第二百四十四天:冥想的种类

树上

冥想 28天写作 正念

“定义”

Nydia

前端HTML5面试官和应试者一问一答

我是哪吒

html 程序员 大前端 28天写作 2月春节不断更

当深度学习遇上图: 图神经网络的兴起!

博文视点Broadview

分布式存储单主、多主和无中心架构的特征与趋势

守护石

大数据 分布式 分布式存储 分布式文件系统

本期办公自动化需要的软件一览

IT蜗壳-Tango

七日更 28天写作 2月春节不断更 IT蜗壳

手把手教你爬取优酷电影信息-1

happlyfox

学习 爬虫 28天写作 2月春节不断更

话题讨论 | 各地都有什么特别的元宵节活动?

happlyfox

社会话题 话题讨论 28天写作 2月春节不断更 话题王者

爬虫知识记录之一

头号摄影师

爬虫

使用 Tye 辅助开发 k8s 应用竟如此简单(六)

newbe36524

Docker Kubernetes 微服务 dotnet

Elasticsearch 一个 field 两个索引

escray

elastic 七日更 28天写作 死磕Elasticsearch 60天通过Elastic认证考试 2月春节不断更

一文带你了解GaussDB(DWS) 的Roach逻辑备份实现原理

华为云开发者社区

容灾 备份 GaussDB(DWS) 逻辑备份 Roach

泰康和百度智能云为何相互需要?

吴俊宇

百度 保险数字化 泰康

我凭借这份“2021全网最全Java面试清单”彻底征服阿里面试官

比伯

Java 编程 程序员 架构 面试

Selenium 自动化前的补充知识,Frame操作、多窗口切换、模糊定位、复合定位

梦想橡皮擦

Python 28天写作 2月春节不断更

关于个人认知的一些碎碎念「Day 6」

道伟

心理学 认知 28天写作

让听见炮火的人来做决策,做决策的要好好听听炮火

数列科技杨德华

28天写作

视频号直播和 PageRank 算法 [待完善]

小匚

机器学习

(28DW-S8-Day6)区块链如何解决双重支付及防篡改

mtfelix

比特币 区块链 防篡改 28天写作 双重支付

只有两颗糖,什么时候给——再谈峰终定律

Justin

心理学 28天写作 游戏设计

1.2 Go语言从入门到精通:编写第一个Go程序

xcbeyond

28天写作 Go 语言

水墨屏开发设备,旧 Kindle 改造而成

HelloGitHub

开源 硬件 kindle

Kafka.08 - 消息交付可靠性保障

insight

kafak 2月春节不断更

Linux入门篇 —— Linux软件安装(YUM & RPM & 源码)

若尘

Linux 源码 RPM安装 rpm yum

WAVE SUMMIT 2022 深度学习开发者峰会

WAVE SUMMIT 2022 深度学习开发者峰会

腾讯多媒体实验室:信号处理×深度学习,语音通信新技术的研发实践_云计算_云加社区_InfoQ精选文章