2025上半年,最新 AI实践都在这!20+ 应用案例,任听一场议题就值回票价 了解详情
写点什么

声网 Agora 一站式智能语音识别方案:内容审核,快速接入

  • 2019-11-29
  • 本文字数:1653 字

    阅读完需:约 5 分钟

声网 Agora 一站式智能语音识别方案:内容审核,快速接入

视频直播、语音聊天、音乐社交,这些与“声音”有关的社交场景在近两年来越来越热,也吸引了很多内容创作者和用户。不过,与之相关的语音内容审核一直是令很多平台头痛的问题。这也让那些“每天听 4000 条语音”的声音鉴黄师上了头条。而现在,市场上已经有一些厂商开始提供智能语音鉴黄服务了,大幅减轻了人工鉴黄的工作量。


不过,对于社交产品团队来讲,现有的语音内容审核+实时音视频服务,部署、调试、运维的成本高,而且很多方案对有背景音乐、噪声的音频识别效果差。为了解决这个问题,我们正式推出声网 Agora 一站式智能语音识别方案。


现有的方案都是如何实现的呢?


一般来讲,一个社交产品需要对接三种厂商:CDN 厂商,用来推流、拉流,实现普通的直播;RTC 厂商,用来实现低延时的实时互动直播;内容审核厂商,通过 AI、人工进行审核。接入的架构基本如下图所示,可简单概括为三步:


  1. 内容经过转码或直接推流至 CDN;

  2. 内容审核厂商从 CDN 拉流,然后进行 AI 、人工内容审核;

  3. 完成审核后,传回给服务器端。



图:传统的实时音视频内容审核流程


这种旧方式带来的问题显而易见。首先,开发者需要对接三个厂商,要进行多次部署、调试,其中有很多调试的成本与风险。而且,当 CDN 出现故障时,需要较长时间来排查问题。另外,在这个过程中,开发者还需要支付额外的拉流成本。


另一方面,目前的方案还需要解决噪声问题。因为音频社交有很多种场景,比如语音 FM、语音聊天室、音乐社交、娱乐直播,这些场景常常伴有环境噪声和背景音乐,会影响现有内容审核方案的识别率。

声网 Agora 一站式智能语音识别方案


声网现已提供业界独有的一站式智能语音识别方案。如上图架构所示,开发者只需要在应用中集成声网 Agora SDK,即可让音频在 Agora SD-RTN™ 网络中实时传输的过程中完成语音内容识别与审核。我们在原有的实时语音互动直播的基础上,整合了业界 Top 3 语音识别服务。同时,基于声网的 AI 音频降噪引擎,来提高音频质量,优化语音识别效果。


语音识别的流程如下图所示。首先通过声网独家研发的 AI 音频降噪引擎消除背景音,优化音频质量,让语音更加清晰。我们在网络电台、语音交友等互联网平台听到的语音音频通常有两类,一类是普通的语音,另一类是非文字的声音,如娇喘和 ASMR,后者是不存在任何语义的。所以我们会通过不同的模块来检测,将语音转化为文字通过内容安全引擎进一步过滤,结合“多意义上下文短文本垃圾检测”、“Deep Learning 垃圾检测”、“规则引擎”和“分类器”等模块,过滤掉音频中涉政、涉黄(包括娇喘、ASMR)、暴恐、辱骂等违规内容。人工审核团队可以通过 Web 端后台,对机器审核的结果进行抽查和复审,不断优化机器审核的准确率。这一过程可以大幅降人工审核成本,提升效率。



目前该解决方案可检测出广告、涉黄、涉政、暴恐、谩骂等违规内容,适用于视频直播、语音聊天室、娱乐直播、语音 FM、音乐社交等实时音视频社交互动场景。


声网 Agora 一站式智能语音识别方案优势包括:

1 调用 RESTful API,一站式接入

声网 Agora 目前提供了实时音频通话 SDK。在应用中集成 Agora SDK 后,开发者可以通过调用 RESTful API,即可为自己的应用增加语音内容审核服务。相比传统内容审核方案,声网方案可以节省开发时间、服务器等接入成本。

2 AI 降噪,识别率更高

面对语音识别中常见的噪声、背景音乐等音质问题。我们会通过声网 AI 音频降噪引擎对音频进行优化,以提升语音的识别率。与此同时,用户的语音、音频体验也会得到提升。在今年的 RTC 2019 实时互联网大会上,我们还将进一步分享 AI 音频降噪背后的技术实践,敬请期待。

3 语音交互低延时

声网 SDK 实现了全球端到端 76ms 的实时音视频低延时传输。声网 Agora SD-RTN™ 实时通信网络采用私有 UDP 协议进行传输,基于软件定义优化路由选择最优传输路径,自动规避网络拥塞和骨干网络故障带来的影响。在能保证低延时传输的同时,声网 Agora SDK 还支持 48kHz 高音质语音。


本文转载自公众号声网 Agora(ID:shengwang-agora)。


原文链接:


https://mp.weixin.qq.com/s/ynnQ6MR-75OsHV-iCOXvCA


2019-11-29 17:461742

评论

发布
暂无评论
发现更多内容

LeetCode题解:剑指 Offer 49. 丑数,三指针,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

APM-技术专题-监控系统选型

码界西柚

APM 监控

7年Java经验|面20+家公司|已拿16个offer|面经总结|

Java架构追梦

Java 架构 面试 20+大厂面经

想来百万流量技术公众号发布文章吗? InfoQ 开放内容平台了!

xiaotan

InfoQ 的朋友们 热门活动

理论 + 标准 + 工程 —— 阿里云视频云编码优化的思考与发现

阿里云CloudImagine

阿里云 视频编码 视频算法 视频处理

spring中让你眼前一亮的代码技巧

AI乔治

Java spring 架构 微服务

卧槽,误删数据库了,会被开除吗?

AI乔治

Java 数据库 sql 架构 SQL语法

聪明人的训练(十四)

Changing Lin

4月日更

从中国企业进入IEC最高决策机构,看科技领先的产业价值与用户价值

脑极体

1小时破千万点击量!阿里巴巴首发:Java核心框架指导手册

Java架构追梦

Java 阿里巴巴 架构 面试 核心框架

阿里巴巴云原生 etcd 服务集群管控优化实践

阿里巴巴云原生

容器 运维 云原生 k8s 存储

小厂逆袭美团|5年经验|一二三面经,已拿offer|

Java架构追梦

Java 架构 面试 美团Offer

HikariCP-技术专题-配置介绍和使用

码界西柚

入职字节跳动那一天,我哭了(蘑菇街被裁,奋战7个月拿下offer)

Java架构追梦

Java 架构 字节跳动 面试

特权访问管理(PAM)即服务

龙归科技

2021金三银四:狂刷398道Java最新MySQL笔记;成功收获9个Offer

比伯

Java MySQL 编程 架构 计算机

一个CURD三年的Java程序员刷完这份《阿里面试指南(恒山版)》,居然斩获了十七个offer

Java架构之路

Java 程序员 架构 面试 编程语言

GitHub持续霸榜!2021年Java核心知识:面试突击版

Java架构之路

Java 程序员 架构 面试 编程语言

一篇文章了解CI/CD管道全流程

禅道项目管理

DevOps 持续集成 持续交付

Flume高阶自定义组件

大数据技术指南

大数据 flume 4月日更

入门物联网嵌入式才是关键!

cdhqyj

技术 编程语言 物联网 嵌入式 系统

想来百万流量技术公众号发布文章吗? InfoQ 开放内容平台了!

InfoQ写作社区官方

热门活动

iOS--面试题:多线程

ios 面试 多线程

最全 MongoDB 基础教程

若尘

数据库 mongodb mongo

博云入选2021爱分析·产业数字化厂商全景报告

BoCloud博云

云计算 云原生 PaaS 博云

硬核!阿里内部这份《Java面试核心知识手册》在Github上已获赞高达89.7K!

Java架构之路

Java 程序员 架构 面试 编程语言

HDFS的垃圾桶机制

五分钟学大数据

hadoop 4月日更

非科班毕业生,五面阿里:四轮技术面+HR一面已拿offer

码农之家

Java 编程 程序员 互联网 面试

JVM-技术专题-方法区中常量池分析

码界西柚

JVM 常量池

android热修复基本原理,15分钟的字节跳动视频面试,满满干货指导

欢喜学安卓

android 程序员 面试 移动开发

Android面试送分题:大厂经典高频面试题体系化集合,实战篇

欢喜学安卓

android 程序员 面试 移动开发

声网 Agora 一站式智能语音识别方案:内容审核,快速接入_文化 & 方法_声网_InfoQ精选文章