“All in Cloud”之后,和你聊聊「云原生DevOps的Kubernetes技巧」 了解详情
写点什么

腾讯多媒体实验室:信号处理×深度学习,语音通信新技术的研发实践

  • 2019 年 11 月 12 日
  • 本文字数:1587 字

    阅读完需:约 5 分钟

腾讯多媒体实验室:信号处理×深度学习,语音通信新技术的研发实践

随着 5G 时代的正式到来,又一次产业革命大潮正在悄然而至,人工智能、物联网 loT、云计算、5G 等前沿技术出现在大众视野。11 月 6 日-7 日,Techo 开发者大会在北京举行,在音视频及通信专场上,腾讯多媒体实验室专家研究员肖玮带来以“信号处理遇见深度学习,语音通信新技术的研发实践”为主题的演讲,从语音通信面临的挑战,以及智慧语音通信技术的发展两方面介绍深度学习为语音通信带来的创新。



(腾讯多媒体实验室专家研究员 肖玮)


Techo 开发者大会由腾讯云发起,汇聚全球顶尖行业专家和技术爱好者,通过一场主论坛、18 个技术方向分论坛和多场创新互动活动,为全球开发者搭建一个开放、中立、活跃的技术平台,助力于开发者的能力成长和实践创新。本届大会聚集来自全球 5000 多位开发者,并邀请超 150 位业界大咖围绕前沿技术发展进行分享和交流。


作为多媒体技术的重要组成部分,语音通信扮演着非常重要的角色,而语音通信体验则成为了打造沉浸式多媒体体验的关键一步。


相较于模拟信号时代的语音通信,数字信号时代的语音通信在流程上要复杂许多。“从技术层面出发,语音通信主要存在三个技术挑战。”据肖玮介绍,其一,信源层面上,如何获得近似无噪声、无回声、无混响的声音信号源?其二,传输链路层面上,如何兼容不同的的压缩与传输标准,并确保传输稳定?其三,工程化层面上,如何确保功能模块在维持低复杂度的同时,做到更优秀的性能及低时延?这三项挑战成为摆在语音通信技术面前的“三座大山”。


看似简单的数字语音通信,其实存在着众多需要解决的问题以及复杂的流程,想要打造一套具备普适性的语音通信系统,自然少不了深度学习的助力。


肖玮介绍,多媒体实验室将深度学习应用于信号处理过程中,一方面,基于深度学习,对瞬态等非平稳噪声形成有效抑制,实现语音增强;另一方面,结合经典信号处理和深度学习设计了音频超分技术,前向兼容现有协议前提上,提升信号的分辨率,将窄带语音输入腾讯云,补足窄带语音所丢失的部分,提升回放内容质量。同时,轻量级设计方法,能够保证模型小,可以在云端(支持大并发)或者终端(低功耗)部署。


此外,由于信号传输过程中可能出现的衰减等问题,在转码的过程中很容易出现转码失真的情况,影响音频回放的质量。为了解决这一问题,打造了一套盲式下行后处理技术。该技术兼容包括 ITU-T G.711 在内的各种标准协议,并且可以与音频超分协同;无需修改现有的通信协议,可降低转码失真,同时具备便于部署的轻量级建模的特性。


“借助深度学习,我们打通了从上行到传输再到下行的完整链路,这一系列技术不仅性能强大,同时又具备着轻建模,易部署的特性,能够广泛应用于基于数字信号传播的语音通话中。”肖玮表示,基于深度学习手段,腾讯多媒体实验室将语音信号处理与人工智能技术进行深入结合,打造出端到端的智慧语音通信解决方案,实现自然的人与人之间的交流。


作为腾讯旗下顶尖的音视频通信和处理研发团队,腾讯多媒体实验室在标准制定方面已经取得了令人瞩目的成绩,有近 50 项提案被下一代视频编码标准 VVC/H.266 采纳。此外,在虚拟现实(VR)、点云(PCC)、网络传输协议 (DASH)、多媒体系统(OMAF、CMAF、NBMP) 等相关多媒体标准中也取得了突破性进展,获得多项标准核心专利。


在 5G 浪潮下,多媒体的技术和形式不断发生改变,高效率低延迟的传输,带来了更丰富的落地场景,让 8K、VR、AI 更加触手可及。腾讯多媒体实验室也开始在沉浸式媒体和泛媒体方向发力,目前,多媒体实验室已经产出了相应的 SDK(软件开发工具包)供文旅以及教育行业使用,未来将会在融媒体、新媒体等更多更丰富的场景落地,为用户带来极具 5G 时代色彩的沉浸式体验。


提升语音通信的质量只是智慧语音通信的一个侧面,它能够实现的功能则远不止于此。肖玮表示,随着智慧语音通信技术的进一步发展,未来,腾讯多媒体实验室也将持续进行技术创新,让沉浸式音视频体验更加触手可及。


2019 年 11 月 12 日 19:53636

评论

发布
暂无评论
发现更多内容

Go- 时间与日期

HelloBug

时间 Go 语言 日期

Go- 字符串

HelloBug

索引 字符串 Go 语言 拼接 长度

java操作sql server数据库

Python研究者

8月日更

策略模式

wzh

面试 设计模式 策略模式

网络攻防学习笔记 Day113

穿过生命散发芬芳

网络攻防 8月日更

类加载机制

wzh

Java 面试 JVM 类加载器 JVM类加载

MySQL 系列教程之(十一)Explain 与慢查询优化

若尘

MySQL 数据库 8月日更

为了完成小姐姐安排的打分系统,又熬了一个小时的夜补充视图与模板

梦想橡皮擦

8月日更

JAVA 规范

gin

观察者模式

wzh

面试 设计模式 观察者模式

Java web程序的运行时环境

wzh

Java tomcat 面试 Web JVM

Vue进阶(五十四):vue-cli 脚手架 dev-server.js 配置文件详解

No Silver Bullet

Vue 8月日更

Flutter 绘制动机 VSYNC 流程源码全方位分析

工匠若水

flutter android 8月日更

Go- 指针

HelloBug

指针 Go 语言

JVM内存划分

wzh

面试 JVM 方法区

Vue进阶(五十五):vue-cli 脚手架 build.js 配置文件详解

No Silver Bullet

Vue 8月日更

Mybatis 常问问题总结(附答案)

村雨遥

Java mybatis 8月日更

CSS的设计模式(三)ITCSS

Augus

CSS 8月日更

@ConditionOnClass的使用

Rubble

8月日更

kubernetes/k8s CNI 分析 - 容器网络接口分析

良凯尔

Kubernetes 源码分析 Kubernetes Plugin #Kubernetes# cni

回调模式

wzh

面试 设计模式 回调函数

JVM GC机制

wzh

面试 JVM 垃圾回收 GC GC Root

NodeJs深入浅出之旅:包与NPM 🌛

空城机

大前端 Node 8月日更

Nginx-基本概念和使用

Rubble

8月日更

【布道API】权限错误码选择:401、403 或 404

devpoint

HTTP Authorization REST API 8月日更

Vue进阶(五十六):vue-cli 脚手架 karma.conf.js 配置文件详解

No Silver Bullet

Vue 8月日更

Go- 字符串处理

HelloBug

Go 语言 字符串处理

装饰器模式

wzh

面试 设计模式 装饰器

架构实战训练营模块1 作业

Sonichen

Spring XML 原理

gin

xml spring 自定义标签

从程序与机器码看低代码演进方向

Liin

编程 低代码

西门子低代码:探讨应用程序开发的下一步演进方向

西门子低代码:探讨应用程序开发的下一步演进方向

腾讯多媒体实验室:信号处理×深度学习,语音通信新技术的研发实践_云计算_云加社区_InfoQ精选文章