写点什么

音频内容理解的关键技术

  • 2019-05-31
  • 本文字数:2623 字

    阅读完需:约 9 分钟

音频内容理解的关键技术

为什么要使用机器来理解音频内容呢?一个重要的出发点就是在大量数据存在的情况下,由人来完成音频内容的理解是一件较为困难的事情,在图片和文本处理方面,快速理解尚有一定实现的可能,古代有一个形容人记忆力很好的成语叫做走马观碑,描述一个人骑着快马路过一个石碑,看到石碑上密密麻麻的小字一瞬间就能够全部记下来。但是对于音频与视频这种内容,即使在加速的情况下也需要一定的时间来听完、看完音频和视频内容才能够进一步理解它。如果采取人力处理这些问题会遇到困难,我们就可以借助于机器辅助人来进行处理。


机器在理解音频的过程中需要理解哪些内容呢?就需要我们来分析场景问题。



1. 内容安全: 在 18 年的时候,红极一时的一名主播因为在直播过程中发表一些不当的言论而遭到封杀。同样的案例还有因主播在直播过程中发表涉政相关的言论而被封杀。今年是建国 70 周年,很多境外的反动组织为了扩散他们的言论在某些直播平台或者社交平台散播宣传音频或者视频。他们通常用录音机等播放设备将提前录制好的音频和视频连续不断的进行播放,这是一个典型的社交问题。此外,直播中还存在较多的色情问题,包括视频、图像方面的色情,也包括音频方面的色情。有时也会有广告导流行为,所谓广告导流就是在某一个直播平台上,大家在音视频交流过程中有人发类似于我们私下加个微信聊吧,这样这个平台的流量就会被导走。我们的工作就是要在音频中识别出这些行为,为这些行为打上标签,让运营平台知道这些音频中存在这样或者那样的问题。以上所分析的问题完全属于截流问题。


2. 内容运营: 内容理解的优势在于可以进行内容推荐,一个典型的例子就是在交友的社交平台上,如果通过声音识别出是一位大叔,就可以给他推荐一位萝莉,如果声音识别是一位御姐,就可以推荐给她一个正太,这样就有希望延长他们之间的交流时间。



内容理解核心的解释就是将非结构化的内容结构化,其中重要的途径是标签,通过各种手段为音频或者视频打上各种标签,方便后面去做各种处理。比如拦截和推荐。


3. 解决方案: 对于上述问题,我们的解决方案主要包括四个步骤:


  • 音频切分:在得到原始音频之后首先对音频进行切分,将长语音切分为多个短语音

  • 音转文:将语音转换成文字

  • 识别:对文字和音频分别打标签

  • 合成:汇总片段结果,并给出最终的整条语句或者整个视频。



内容理解的过程中存在一定的困难,比如远场识别,对于直播来说识别过程中最大的困难是混响和噪声。主播在直播过程中为了吸引更多的人观看通常会唱歌,唱歌一般都会加混响来使歌声听起来有绕梁三日的感觉。但是这种情况就会对语音识别产生较大的影响。此外,我们在使用语音搜索和语音输入法的过程中为了获得更加正确的结果会故意放慢说话速度,表达相对更加清晰。而直播过程中为了获得良好的互动,说话都会比较随意。唱歌也是一个比较难解决的问题,在语音识别建模的过程中,很多情况下都是使用带音调的音素来进行建模,但是在唱歌的过程中语音的声调会发生变化。这样也会引起识别不准确的问题。目前已经有很多有效的方法来解决这些问题。



下面介绍下解决上述问题的相关工作,首先是音频切割(VAD),这种技术是比较主流的一种方法,先通过深度学习 DNN 来预测出一段音频是静音还是非静音。然后通过加窗得到最终的结果。



在语音转写文字的过程中,采用 DNN+LSTM,然后使用 lattice-free MMI 方法训练现有模型,我们使用的语言模型是 ngram 方式。这是一个相对比较主流的框架。目前 ASR 主要解决的是把音频中的文字提取出来。



前面我们提到还有一部分语音识别不能通过转文字获得。比如是否有音乐,播放音乐的名称,是否存在色情声音等等。我们采用声音分类的框架来解决这个问题。首先需要对音频进行数据增强,因为在音频分类条件下数据的 label 并不均衡,特别是存在一些小众的声音,非常稀少,所以需要对这些数据进行增强。我们使用 TDNN+bi-GRU+Attention 框架。



上述第一步将音频转换成文字,第二步将分类信息标签集,第三步需要对转换出来的文字进行文字识别,文字识别主要包括文字的分类:基于一段文字判断它所属的类别,比如这段文字是不是属于色情话题或者是带有辱骂性等。模型不能完全解决这方面的问题,还需要有关键词类比。我们给出的框架通过 fasttext 模型或者一些传统的机器学习算法来进行模型分类,同时联合关键词信息进行处理。在使用模型训练之前首先对文本进行预处理,比如分词、归一化等。



最后一步是行为识别,例如境外反动组织要去散播反动言论会在平台上开很多账号,对于每个账号不会雇佣不同的人去宣传言论,而是使用录制好的音频来播放相同的言论内容,这样他的行为就会有一定的聚集性,在这种设备或者 IP 上的具体行为可以通过一个逻辑回归模型来打分。通过分数判断这个行为是不是存在问题。行为识别也可以检测出一些有问题的内容。



下图是我们整个框架的架构图,将上述我们分析的各个模块整合在一起。在模型层面包括 ASR 模型、文字相关模型、声音相关模型、行为相关模型、名单库等。通过引擎层输出各种各样的分数,最后我们有一套规则,规则引擎会对所有模型层面和画像层面输出的结果进行汇总,最终得到结论。



下面是我们真实的一个价值体现,某直播平台同时采用用户举报、人工抽审、数美智能审核三种方案监测平台直播内容。用户举报平均每天抓出 1 个违规音频,人工抽审平均每天抓出 20 个违规音频(审核团队 30 人),数美智能审核系统平均每天抓出 160 个违规音频,同时数美智能审核系统反馈音频转文字结果、自动记录违规音频位置、发生时间等信息。


作者介绍

齐路,数美科技资深 AI 专家,南开大学硕士毕业,在人工智能领域有 10 年一线实战和团队管理经验。先后就职于百度、360,现任数美科技语音 & 文本产品负责人。

关于数美科技

数美科技成立于 2015 年 6 月,是全球领先的人工智能反欺诈解决方案服务商,被国家认定为高新技术企业。基于人工智能技术,聚焦反欺诈,独创“全栈式实时反欺诈”解决方案,全场景“一站式内容安全“解决方案,通过领先的 AI 内容识别、AI 反欺诈技术,在众多场景帮助企业规避业务风险,为企业数字化业务发展保驾护航。


目前已覆盖中国、北美、东南亚、中东等 50 多个国家及地区,每日反欺诈访问量 100 亿,为金融、零售、电商、视频、直播、音频、社交、媒体、航旅、出行、教育、地产等众多行业提供服务,与中国银联、OPPO、金山云、百度视频、滴滴出行等数千家知名企业达成合作。


本文来自 DataFun 社区


原文链接


https://mp.weixin.qq.com/s/U6cv8JuBHEhYiv8zmvGx0A


2019-05-31 08:009484

评论

发布
暂无评论
发现更多内容

1688APP 原数据 API 接口的开发、应用与收益

科普小能手

数据挖掘 阿里巴巴 1688 电信运营商 API 接口

利用ima.copilot,打造你的AI知识库

老张

人工智能 知识库 DeepSeek ima.copilot

音乐 NFT 系统的上线

北京木奇移动技术有限公司

软件外包公司 音乐NFT 体育NFT

初探集群联邦

天翼云开发者社区

云计算 集群

信创算力关键年的三个趋势与最佳选择

脑极体

信创

Firefox 135, Chrome 135, Chromium 135 官网离线下载 (macOS, Linux, Windows)

sysin

firefox

Gitea Enterprise 23.0.0 (Linux, macOS, Windows) - 本地部署的企业级 Git 服务

sysin

git Gitea

企业在财务规划过程中,如何避免零基预算的常见陷阱

智达方通

全面预算管理 财务规划和分析 财务规划

唯品会商品详情接口(唯品会 API 系列)

tbapi

唯品会商品数据采集 唯品会API 唯品会商品详情接口

AI招聘助手的主要功能

北京木奇移动技术有限公司

AI技术 AI招聘 软件外包公司

低代码开发是传统开发的替代,还是补充?

秃头小帅oi

多种路径规划方案,满足应用个性化导航需求

HarmonyOS SDK

harmoyos

数字先锋 | 车企,出海!天翼云AOne擦亮车企“智慧服务”新名片!

天翼云开发者社区

云计算 公有云 边缘安全 安全防护

锂电池MES系统:全面优化生产流程,提升质量与效率

万界星空科技

制造业 mes 锂电池 新能源电池 锂电池mes

GaussDB高级压缩,破解业务数据激增难题

华为云开发者联盟

MySQL 数据库 GaussDB 数据压缩

面向 Workload 级别的灵活可配置 Serverless 弹性解决方案

阿里巴巴云原生

阿里云 Serverless 云原生

ixBrowser指纹浏览器配置教程

kookeey代理严选

代理IP 跨境电商 亚马逊运营 Tiktok shop 指纹浏览器

2025大厂年终奖揭秘:有人拿50个月工资,有人直接撒钱?

王中阳Go

程序员

数字先锋 | 竞技科研蓝海,中南大学先“算”一步!

天翼云开发者社区

云计算 智算平台 算力建设

疯狂SQL转换系列- SQL for Milvs2.4

数由科技

sql 数据科学 huggingfists graphRAG Milvus 2.5

VMware Tanzu Kubernetes Grid Integrated Edition (TKGI) 1.21 - 运营商 Kubernetes 解决方案

sysin

Kubernetes Tanzu

火语言RPA--图鉴打码

火语言RPA

我们究竟畏惧AI什么?

这不科技

AI

音频内容理解的关键技术_安全_DataFunTalk_InfoQ精选文章