写点什么

美图海量短视频内容分析与检索(二)

  • 2019-11-30
  • 本文字数:977 字

    阅读完需:约 3 分钟

美图海量短视频内容分析与检索(二)

如何有效定义标签体系

我们有一个热门视频池,运营和产品会手动为一些视频打上标签。你可能会说,我们可以拿这部分标签做模型训练。如果我们将业务标签应用于算法会存在哪些问题呢?


一是业务的标签比较抽象,比如可能会制定像搞笑和幽默这样的一些标签。但一个视频是否算搞笑、幽默,无法仅从视觉或声音、语音等一些信息进行准确判定。


举个例子,一个 3 岁的小孩在哭,父母上传的可能会是一个搞笑的视频,如果是 20 多岁或者 50 多岁的人在哭,那就是一个悲伤的视频。


二是训练数据不均衡,上图是我们拿到的一部分业务标签对应的数据量,因为业务人员在定标签的时候不会考虑每个类别是什么样的,所以就会出现训练数据不均衡的问题,这个也会影响算法模型的训练。


另一个问题是类别区分度低。以上图为例,手指舞和自拍,从视觉角度来看没有任何区别,如果训练中强行将其分成两类,也会在训练过程中影响网络模型的学习,会引起一些噪声。


还有一个问题是标签的维度比较单一。通常一个视频,最多给四到五个维度的标签,再多的话,想全面衡量这个视频会变得非常复杂。


我们的解决方法是,以业务标签作为指引,拿我们的视频数据和文本数据(伴随视频的标题、评论相关信息)去提取视频特征、音频特征进行聚类,然后对聚类进行抽象定义,得出相应的视觉标签元素。这个标签元素就是我们用来训练的标签。最后训练标签输出的结果会反过来映射到业务标签,用这种方法定义的标签是多层级多维度的。


如下图所示,视频中是一个女生,视频中的姿态显示为全身,动作是在摇摆,检测到的音乐风格为摇滚,那么可以判断这个视频是一个美女在自拍,而且在跳舞,属于才艺展示,于是生成的标签就是“美女自拍”、“舞蹈”、“才艺”。这就完成一个算法标签到业务标签的映射。

如何提高线上算法模型的迭代更新效率

这里有三个核心问题:快速的数据标注、有效稳定的模型评估机制、算法运行的性能要有保障。


为了进行快速标注,我们也用了一个自动的算法标注,这个算法在无监督和半监督的深度学习的论文中被提到过。我们会预先拿一个通用的数据训练模型,对业务数据进行少量的标注,基于少量的标注数据再训练一个分类器。这个分类器会给其它未标注的进行标注。伴随标签输出会有一些置信度,会把高置信度的数据再拿去进行训练,低置信度的会继续下一次的迭代更新,这个过程会重复多次。这个过程也会根据任务的难度,加入人工的核验和标注。


2019-11-30 22:53917

评论

发布
暂无评论
发现更多内容

鸿蒙NEXT开发案例:二维码的生成与识别

最新动态

机器人精准夹取技术实现物品无损搬运

qife122

机器学习 机器人技术

鸿蒙NEXT应用国际化:数字与度量衡格式化

最新动态

SelectDB 在 AWS Graviton ARM 架构下相比 x86 实现 36% 性价比提升

SelectDB

数据分析 AWS arm 数据库查询 SelectDB

利用NFC增强用户体验:HarmonyOS NEXT的NFC应用指南

最新动态

HarmonyOS NEXT元服务开发快速入门案例

最新动态

假如你从8月份开始准备Java面试,秋招如何成功上岸互联网大厂?Java面试题及答案分享!

程序员高级码农

Java 程序员

基于JWT的多租户RAG技术实现解析

qife122

OpenSearch 多租户架构

基于物理约束与强化驱动的可解释GRU商品需求预测模型

qife122

机器学习 物理信息神经网络

混合递归架构实现推理速度翻倍的技术解析

qife122

推理优化 Transformer架构

HarmonyOS NEXT在支付场景中的安全通信设计:基于NFC和Secure Element的数据加密

最新动态

华为鸿蒙 UIAbility 组件:构建用户界面的舞台

最新动态

鸿蒙 NEXT 安全控件与系统 Picker 深度剖析

最新动态

HarmonyOS NEXT应用元服务开发Intents Kit(意图框架服务)事件推荐接入方案

最新动态

1行Python代码,实现PDF的加密、解密

程序员晚枫

Python 开源 PDF

基于YOLOv8的水体环境监控项目(精准识别水域废弃物与污染物)|完整源码数据集+PyQt5界面+完整训练流程+开箱即用!

申公豹

yolov8

开源版 Coze 和 Dify 的深度技术与架构对比

一支烟花AI

人工智能 智能体 agent dify coze

HarmonyOS NEXT自定义数据类型的跨应用协作:实现企业级文档管理

最新动态

鸿蒙NEXT开发案例:分贝仪

最新动态

IME Kit入门:HarmonyOS输入法开发概述与基础操作

最新动态

华为鸿蒙 Want:应用组件之间信息传递的桥梁

最新动态

Apache Doris 3.0.6 版本发布

SelectDB

Doris 数据导入 LakeHouse 物化视图 数据库 大数据

星巴克新加坡站6000美元账户接管漏洞:IDOR漏洞详解

qife122

漏洞挖掘 账户接管

浏览器插件过度分享隐私问题剖析

qife122

浏览器安全 Wappalyzer

JAVA高级开发工程师怎么找工作?JAVA工作经验4-5年一般会面试什么问题?

程序员高级码农

Java 程序员 Java 面试

鸿蒙NEXT权限申请全攻略:系统授权与用户授权之道

最新动态

HarmonyOS NEXT 端侧部署基础之 HiAI Foundation Kit

最新动态

HarmonyOS NEXT应用元服务开发Intents Kit(意图框架服务)本地搜索接入方案

最新动态

从 ClickHouse、Druid、Kylin 到 Doris:网易云音乐 PB 级实时分析平台降本增效

SelectDB

数据库 kylin 数据分析 Doris 网易云音乐

HarmonyOS NEXT方舟数据管理与分布式数据库实战:构建高效同步架构

最新动态

ArkTS 应用的代码混淆策略:提升安全性与性能

最新动态

美图海量短视频内容分析与检索(二)_文化 & 方法_声网_InfoQ精选文章