写点什么

声网 Agora 一站式智能语音识别方案:内容审核,快速接入

  • 2019-11-29
  • 本文字数:1653 字

    阅读完需:约 5 分钟

声网 Agora 一站式智能语音识别方案:内容审核,快速接入

视频直播、语音聊天、音乐社交,这些与“声音”有关的社交场景在近两年来越来越热,也吸引了很多内容创作者和用户。不过,与之相关的语音内容审核一直是令很多平台头痛的问题。这也让那些“每天听 4000 条语音”的声音鉴黄师上了头条。而现在,市场上已经有一些厂商开始提供智能语音鉴黄服务了,大幅减轻了人工鉴黄的工作量。


不过,对于社交产品团队来讲,现有的语音内容审核+实时音视频服务,部署、调试、运维的成本高,而且很多方案对有背景音乐、噪声的音频识别效果差。为了解决这个问题,我们正式推出声网 Agora 一站式智能语音识别方案。


现有的方案都是如何实现的呢?


一般来讲,一个社交产品需要对接三种厂商:CDN 厂商,用来推流、拉流,实现普通的直播;RTC 厂商,用来实现低延时的实时互动直播;内容审核厂商,通过 AI、人工进行审核。接入的架构基本如下图所示,可简单概括为三步:


  1. 内容经过转码或直接推流至 CDN;

  2. 内容审核厂商从 CDN 拉流,然后进行 AI 、人工内容审核;

  3. 完成审核后,传回给服务器端。



图:传统的实时音视频内容审核流程


这种旧方式带来的问题显而易见。首先,开发者需要对接三个厂商,要进行多次部署、调试,其中有很多调试的成本与风险。而且,当 CDN 出现故障时,需要较长时间来排查问题。另外,在这个过程中,开发者还需要支付额外的拉流成本。


另一方面,目前的方案还需要解决噪声问题。因为音频社交有很多种场景,比如语音 FM、语音聊天室、音乐社交、娱乐直播,这些场景常常伴有环境噪声和背景音乐,会影响现有内容审核方案的识别率。

声网 Agora 一站式智能语音识别方案


声网现已提供业界独有的一站式智能语音识别方案。如上图架构所示,开发者只需要在应用中集成声网 Agora SDK,即可让音频在 Agora SD-RTN™ 网络中实时传输的过程中完成语音内容识别与审核。我们在原有的实时语音互动直播的基础上,整合了业界 Top 3 语音识别服务。同时,基于声网的 AI 音频降噪引擎,来提高音频质量,优化语音识别效果。


语音识别的流程如下图所示。首先通过声网独家研发的 AI 音频降噪引擎消除背景音,优化音频质量,让语音更加清晰。我们在网络电台、语音交友等互联网平台听到的语音音频通常有两类,一类是普通的语音,另一类是非文字的声音,如娇喘和 ASMR,后者是不存在任何语义的。所以我们会通过不同的模块来检测,将语音转化为文字通过内容安全引擎进一步过滤,结合“多意义上下文短文本垃圾检测”、“Deep Learning 垃圾检测”、“规则引擎”和“分类器”等模块,过滤掉音频中涉政、涉黄(包括娇喘、ASMR)、暴恐、辱骂等违规内容。人工审核团队可以通过 Web 端后台,对机器审核的结果进行抽查和复审,不断优化机器审核的准确率。这一过程可以大幅降人工审核成本,提升效率。



目前该解决方案可检测出广告、涉黄、涉政、暴恐、谩骂等违规内容,适用于视频直播、语音聊天室、娱乐直播、语音 FM、音乐社交等实时音视频社交互动场景。


声网 Agora 一站式智能语音识别方案优势包括:

1 调用 RESTful API,一站式接入

声网 Agora 目前提供了实时音频通话 SDK。在应用中集成 Agora SDK 后,开发者可以通过调用 RESTful API,即可为自己的应用增加语音内容审核服务。相比传统内容审核方案,声网方案可以节省开发时间、服务器等接入成本。

2 AI 降噪,识别率更高

面对语音识别中常见的噪声、背景音乐等音质问题。我们会通过声网 AI 音频降噪引擎对音频进行优化,以提升语音的识别率。与此同时,用户的语音、音频体验也会得到提升。在今年的 RTC 2019 实时互联网大会上,我们还将进一步分享 AI 音频降噪背后的技术实践,敬请期待。

3 语音交互低延时

声网 SDK 实现了全球端到端 76ms 的实时音视频低延时传输。声网 Agora SD-RTN™ 实时通信网络采用私有 UDP 协议进行传输,基于软件定义优化路由选择最优传输路径,自动规避网络拥塞和骨干网络故障带来的影响。在能保证低延时传输的同时,声网 Agora SDK 还支持 48kHz 高音质语音。


本文转载自公众号声网 Agora(ID:shengwang-agora)。


原文链接:


https://mp.weixin.qq.com/s/ynnQ6MR-75OsHV-iCOXvCA


2019-11-29 17:461948

评论

发布
暂无评论
发现更多内容

出海如何从0到1?融云《社交泛娱乐出海作战地图》实战经验揭秘

融云 RongCloud

互联网 社交 融云 泛娱乐 出海

DevStudio编辑器使用技巧

坚果

OpenHarmony3.2 6 月 优质更文活动

专注开发者体验 | GitOps 实现 Kuberentes 持续部署

亚马逊云科技 (Amazon Web Services)

云原生

C语言编程—可变参数

芯动大师

C语言 可变参数 6 月 优质更文活动

瓴羊Quick BI:可视化大屏让数据呈现更直观

夜雨微澜

聊聊数科公司如何与现有数智平台厂商协同作战

用友BIP

数科公司 数智平台 数智平台白皮书

​“前端已死”甚嚣尘上,全栈工程师卷到起飞

引迈信息

前端 低代码 全栈 JNPF

把钢铁侠战衣交给Z世代,没想到联想商用PC可以这么炫酷!

脑极体

联想 PC

社交泛娱乐出海如何抓住AIGC?我在融云WICC上看到了答案

融云 RongCloud

社交 融云 泛娱乐 出海 通讯

KW 喜报 | KaiwuDB 斩获 2023 数博会“优秀科技成果”奖

KaiwuDB

KaiwuDB 离散制造业解决方案 2023数博会

提升用户体验:在小程序环境中充分利用Ionic框架

FinFish

Ionic 跨端开发 小程序容器 跨端框架 小程序容器技术

快速掌握Kubernetes中的核心概念

穿过生命散发芬芳

k8s 6 月 优质更文活动

中企出海,海外商旅费控的关键点是什么?

用友BIP

中企出海

如何在 Jupyter Notebook 用一行代码启动 Milvus?

Zilliz

Jupyter Notebook 非结构化数据 Colab AIGC 向量数据库

KW 新闻 | KaiwuDB 受邀亮相 IOTE 2023 第十九届国际物联网展

KaiwuDB

工业物联网 KaiwuDB IOTE

开源共建下一代智能终端操作系统根社区 OpenHarmony携手伙伴聚力前行

科技汇

Last Week in Milvus

Zilliz

非结构化数据 Milvus Zilliz 向量数据库 zillizcloud

2023-06-12:如果一个正整数自身是回文数,而且它也是一个回文数的平方,那么我们称这个数为超级回文数。 现在,给定两个正整数 L 和 R (以字符串形式表示), 返回包含在范围 [L, R] 中

福大大架构师每日一题

算法、 福大大架构师每日一题

如今做泛娱乐出海,你需要融云《社交泛娱乐出海作战地图》

融云 RongCloud

产品 互联网 融云 泛娱乐 出海

你会怎样设计云原生场景下的IOC框架?

M

原创 云原生 ioc spring ioc

高能预警!融云WICC发布《社交泛娱乐出海作战地图》

融云 RongCloud

互联网 地图 融云 即时通信 出海

Postman Runner 中的参数自增技巧

Liam

Java Postman API 接口开发 接口工具

扬帆启航丨九科信息亮相2023全球数字经济大会(GDEC)新加坡分会场

九科Ninetech

揭秘阿里云 Flink 智能诊断利器——Flink Job Advisor

Apache Flink

大数据 flink 实时计算

使用containerd从0搭建k8s(kubernetes)集群

tiandizhiguai

k8s

智能人才发现,帮助企业精准找人,快速识人

用友BIP

数智人力

OpenHarmony工程模板和开发语言

坚果

OpenHarmony 6 月 优质更文活动

KW 新闻 | KaiwuDB 发布智慧矿山解决方案

KaiwuDB

智慧矿山 KaiwuDB 世界智能大会

助力金融业数字化转型,原点安全将出席“2023 中国金融业数字化转型发展大会”

原点安全

数据安全 金融行业 uDSP 消费者个人信息保护

飞桨AI4S污染物扩散快速预测模型,亮相全国数据驱动计算力学研讨会

飞桨PaddlePaddle

飞桨 #人工智能

中盐集团:以财务共享为基础,引领盐行业数智化转型

用友BIP

财务共享

声网 Agora 一站式智能语音识别方案:内容审核,快速接入_文化 & 方法_声网_InfoQ精选文章