最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

声网一站式智能语音识别方案升级 语音审核“快准省”

  • 2020-04-10
  • 本文字数:1899 字

    阅读完需:约 6 分钟

声网一站式智能语音识别方案升级 语音审核“快准省”

近日,我们的“一站式智能语音识别方案”将实现升级。升级后,在原有合作伙伴“数美科技”基础上,将新增依图、阿里云这两家智能语音识别服务商,通过整合行业 TOP3 服务商的语音识别技术优势,帮助直播、语音聊天室等互联网平台更智能、高效的识别语音中存在的涉黄、涉政、广告等不良信息,实现全面、深入地净化平台网络环境。


依图、阿里云重磅加入,智能语音识别方案升级

近年来,随着直播、短视频、语音社交等行业的快速发展,由用户创造的 UGC 内容成为了互联网内容生态的重要构成,并丰富了人们的互联网生活。而另一方面,随着用户 UGC 内容越来越多,涉黄、涉政、不良广告等违法、违规的内容也频频出现,成为了“害群之马”,给很多平台带来了风险。同时,相对于图文和视频,音频审核本身在技术上也更具难度,又增加了平台方的内容审核压力。


在去年 8 月,声网 Agora 就推出了“一站式智能语音识别方案”,为企业提供可集成实时音视频、实时录制和实时智能语音识别的一站式服务,在语音识别服务方面接入了数美科技的“天净”智能语音审核系统,通过声纹检测、语音识别等技术,智能识别语音环境中的涉黄、涉政、广告等违法违规信息,受到了很多企业的好评。


而此次升级后的“一站式智能语音识别方案”新增接入了阿里云、依图科技先进、智能的语音识别技术,整合了业界 TOP3 智能语音识别服务商的技术优势以提供目前互联网行业最全面、最高效的智能语音识别技术。例如,数美科技的“天净”智能语音识别,基于深度学习语音识别技术,多维度智能实时审核。深挖场景需求,为直播视频流、UGC 短视频、FM 电台、语音广场、语音直播间等各类场景提供智能内容过滤服务,通过语音识别转文本的方式,识别文本内容中涉政、色情、广告等不良信息;业内首创的娇喘语音识别,基于基于 Bi-GRU、Attention 模型,精准识别声音中含有娇喘、呻吟、耳骚、喊麦等违规音频,准确率达到 90%以上。声纹识别与检索对比”技术可进行声纹聚类、关联,发现线上、线下语音广告与欺诈行为等。


而依图科技在公共安全领域早已深耕多年。依靠世界级算法团队自研的语音识别、自然语言理解和声纹算法,依图的“智能语音审核”拥有准、快、省三大特点。准——凭借世界级算法能力加已有场景数据的螺旋迭代提升,依图的召回和准确率居行业前列,帮企业最大程度的降低风险。快——实时监测并在 3 秒内返回结果。省——同步返回高精准转写文本和违规音频片段,帮人工审核员提高效率、节省时间。


打通实时音视频+智能语音识别+AI,企业一站式接入

声网 Agora 的“一站式智能语音识别方案”可为企业提供实时音视频+实时录制+实时智能语音识别的一站式高度集成服务,也是目前唯一一家打通人工智能、实时语音识别、实时音视频三大技术解决方案的服务商。使用声网的一站式服务,企业无需部署额外 SDK、无需自己对接 CDN 厂商、更无需支付拉流成本,就可同时上线直播(实时音视频)和鉴黄(实时语音识别)功能,帮助企业大幅节省接入成本,真正做到一站式方便接入。


在智能语音识别方面,声网 Agora 整合了业界 TOP3 智能语音识别服务商的技术优势。而在实时音视频功能方面,声网自建的软件定义实时网 SD-RTN™专为实时音视频业务提供 SLA/ QoS 质量保证,能为企业提供高并发、高可靠性、低延时和抗弱网等特性的实时音视频技术。


声网 Agora 目前在全球拥有 250 多个数据中心。在网络架构设计上能够应对 10 倍以上的负荷,具备千万级并发能力。声网的软件定义实时网 SD-RTN™拥有超低延时特性,可做到全球端到端延时小于 400ms,延时中位数 76ms,处于行业领先水平。声网还具备优秀的弱网传输和抗丢包算法,可以在 60%的丢包环境下保障音视频流畅,70%的网络丢包环境下保障语音的流畅。在终端性能和适配方面,声网针对实时互联网 last mile 做了深度优化,目前已经适配 6000 多款终端设备,网络覆盖全球 200 多个国家和地区,即使在网络环境差的偏远山区或跨国场景中用户也能实现顺畅互动。


此外,对于语音识别中常见的噪声、背景音等音质问题,声网的一站式智能语音识别解决方案还融合声网 Agora 语音引擎与 AI 音频降噪算法,可提供去除背景音、环境音之后的高音质音频源,在原来算法的基础上将不良信息的识别率有效提高 30% 以上。


通过声网 Agora 的“一站式智能语音识别方案”可以帮助企业严格、有效的净化平台内容质量,降低监管风险,提升用户体验,同时还能为企业大幅节省接入成本。据了解,接下来声网还将联合更多业界知名智能语音识别服务商,为企业持续提供业界最高效、最严格的内容审核机制,促进网络生态健康发展。


本文转载自 声网 Agora 公众号。


原文链接:https://mp.weixin.qq.com/s/A7lL1FYdUfru3-TELGOqLA


2020-04-10 17:38619

评论 1 条评论

发布
暂无评论
发现更多内容

数据仓库的基本概念

大数据技术指南

7月日更

Vue进阶(幺叁捌):vue路由传参的几种基本方式

No Silver Bullet

Vue 路由 7月日更

7.24 杭州站 | 阿里云 Serverless Developer Meetup 开放报名!

Serverless Devs

云计算 阿里云 Serverless 云原生

加电软件系统开发详情

VGC挖矿APP系统开发内容

了不起的开发者 丨 有奖征文活动来啦!

百度开发者中心

百度 开发者 征文

国内报价-APP时间加速

Qunar技术沙龙

优化逻辑 优化 优化技巧 优化业务 报价

hadoop 1.0 和 hadoop 2.0 的区别

五分钟学大数据

hadoop 7月日更

熵核科技,自主研发虚拟机赋能安全操作系统

熵核科技

支付安全 安全操作系统 物联网安全 eSIM安全

云服务器、虚拟主机以及服务器如何定义的?三者有什么区别?

行云管家

云计算 服务器 云服务器 虚拟主机

Axie Infinity区块链游戏系统开发技术

薇電13242772558

区块链

Vue进阶(幺玖肆):JavaScript解决浮点数精度丢失问题

No Silver Bullet

jquery Vue 浮点数 7月日更

懂了!时间复杂度O(1),O(logn) ,O(n),O(nlogn)...

Ayue、

数据结构

重温历史 致敬百年 “复兴大道100号”线上VR展馆正式开馆

百度大脑

百度 虚拟现实

CGPay Pro钱包APP系统开发需求

黔唐百宜软件系统开发内容

优米心选软件系统开发资料

我乃平常客,本持平常心| 2021 年中总结

编程三昧

程序人生 大前端 代码人生

架构实战营1期第二模块作业

五只羊

架构实战营

从零开始学习3D可视化之摄像机自由飞行

ThingJS数字孪生引擎

大前端 可视化 3D 数字孪生

了解腾讯京东字节等面试风格,掌握财富钥匙,大厂前端面试稳啦!

前端依依

程序员 面试 大前端 经验分享

性能测试软启动初探

FunTester

性能测试 接口测试 测试框架 压力测试 测试开发

fil矿机怎么选择?用什么fil矿机比较好?

FIL矿机怎么买 fil挖矿

等保二级与等保三级定级标准是怎样?哪个级别更高?

行云管家

网络安全 数据安全 等保 等级保护

容器安全最佳实践入门

百度开发者中心

容器

首个SSRF漏洞开篇学习

网络安全学海

网络安全 信息安全 渗透测试 漏洞分析 SSRF

【redis前传】自己手写一个LRU策略

zxhtom

Java redis 原理 造轮子 jdk运用

算法大赛报名 | OMG!这些名企的真实数据竟用来battle

工赋开发者社区

算法 工业互联网

火爆 GitHub!这个图像分割神器开源了

百度大脑

百度 算法

疫情下的在线教育行业未来发展

anyRTC开发者

音视频 WebRTC 在线教育 视频直播 双师课堂

2021世界人工智能大会召开,百度飞桨人工智能产业赋能中心于上海浦东启动运营

百度大脑

人工智能 大数据 百度 物联网

声网一站式智能语音识别方案升级 语音审核“快准省”_文化 & 方法_声网_InfoQ精选文章