写点什么

美图海量短视频内容分析与检索(二)

  • 2019-11-30
  • 本文字数:977 字

    阅读完需:约 3 分钟

美图海量短视频内容分析与检索(二)

如何有效定义标签体系

我们有一个热门视频池,运营和产品会手动为一些视频打上标签。你可能会说,我们可以拿这部分标签做模型训练。如果我们将业务标签应用于算法会存在哪些问题呢?


一是业务的标签比较抽象,比如可能会制定像搞笑和幽默这样的一些标签。但一个视频是否算搞笑、幽默,无法仅从视觉或声音、语音等一些信息进行准确判定。


举个例子,一个 3 岁的小孩在哭,父母上传的可能会是一个搞笑的视频,如果是 20 多岁或者 50 多岁的人在哭,那就是一个悲伤的视频。


二是训练数据不均衡,上图是我们拿到的一部分业务标签对应的数据量,因为业务人员在定标签的时候不会考虑每个类别是什么样的,所以就会出现训练数据不均衡的问题,这个也会影响算法模型的训练。


另一个问题是类别区分度低。以上图为例,手指舞和自拍,从视觉角度来看没有任何区别,如果训练中强行将其分成两类,也会在训练过程中影响网络模型的学习,会引起一些噪声。


还有一个问题是标签的维度比较单一。通常一个视频,最多给四到五个维度的标签,再多的话,想全面衡量这个视频会变得非常复杂。


我们的解决方法是,以业务标签作为指引,拿我们的视频数据和文本数据(伴随视频的标题、评论相关信息)去提取视频特征、音频特征进行聚类,然后对聚类进行抽象定义,得出相应的视觉标签元素。这个标签元素就是我们用来训练的标签。最后训练标签输出的结果会反过来映射到业务标签,用这种方法定义的标签是多层级多维度的。


如下图所示,视频中是一个女生,视频中的姿态显示为全身,动作是在摇摆,检测到的音乐风格为摇滚,那么可以判断这个视频是一个美女在自拍,而且在跳舞,属于才艺展示,于是生成的标签就是“美女自拍”、“舞蹈”、“才艺”。这就完成一个算法标签到业务标签的映射。

如何提高线上算法模型的迭代更新效率

这里有三个核心问题:快速的数据标注、有效稳定的模型评估机制、算法运行的性能要有保障。


为了进行快速标注,我们也用了一个自动的算法标注,这个算法在无监督和半监督的深度学习的论文中被提到过。我们会预先拿一个通用的数据训练模型,对业务数据进行少量的标注,基于少量的标注数据再训练一个分类器。这个分类器会给其它未标注的进行标注。伴随标签输出会有一些置信度,会把高置信度的数据再拿去进行训练,低置信度的会继续下一次的迭代更新,这个过程会重复多次。这个过程也会根据任务的难度,加入人工的核验和标注。


2019-11-30 22:53949

评论

发布
暂无评论
发现更多内容

从 Llama 1 到 3.1:Llama 模型架构演进详解

Baihai IDP

程序员 AI LLM llama Baihai IDP

打造个性化的Allure2报告:定制Logo和样式的软件测试报告

测试人

软件测试

一键擦除手写笔迹,试试这款省时省力的学习利器

合合技术团队

学习 手写识别 文字擦除 人工智能】

WonderPen妙笔 for Mac(Mac文本写作工具)v2.5.8中文激活版

小玖_苹果Mac软件

WonderPen妙笔 WonderPen下载 WonderPen中文版 WonderPen激活版

AI Transcription for Mac(AI语音转录软件)v2.9激活版

小玖_苹果Mac软件

HyperWorks基于几何投影的网格变形

智造软件

仿真 altair hyperworks

行政人员必备!如何快速生成一批人员信息卡?

草料二维码

CST软件如何将平面结构弯曲贴到另一个结构上

思茂信息

仿真 cst CST软件

俯瞰 Monorepo,别一番风景!

蛋先生DX

前端 前端架构 前端工程化 Monorepo

反向 Debug 了解一下?揭秘 Java DEBUG 的基本原理

京东科技开发者

【行云流水线】满足你对工作流编排的一切幻想~skr

京东科技开发者

【HarmonyOS NEXT】实战——登录页面

帅比九日

鸿蒙 arkui ArkTS HarmonyOS NEXT

企业数字化转型现状

芯盾时代

数字化转型 iam

Go语言中的加解密利器:go-crypto库全解析

左诗右码

Go

拼多多商品详情数据接口(Pdd.item_get)丨拼多多API接口指南

tbapi

拼多多商品详情接口 拼多多API接口

公共事业信息系统怎么定义?需要过等保吗?

行云管家

信息系统 等保 等保测评 公共事业

套娃嵌入:如何优化向量搜索成本,并兼顾延迟与召回

Zilliz

Milvus 向量搜索 套娃嵌入 向量存储

2024 都要过完了,我不允许你在 Go 中还不会解决 CORS 跨域问题

江湖十年

Go 面试 后端 CORS 跨域

项目申报评审系统(源码+文档+部署+讲解)

深圳亥时科技

社区论坛小圈子小程序源码系统:自定义小程序管理社区圈子软件圈子系统系统开发-做社区圈子丨圈子论坛社区交友系统开源版小程序源码丨

DUOKE七七

php 源码 开源软件

商业开源服饰电商大模型-摹图

摹图

AI AI大模型 AI 图像生成

2025山西晋中等保测评机构地址在哪里?电话多少?

行云管家

等保 等保测评 晋中

记录一次RPC服务有损上线的分析过程

京东科技开发者

CodeRunner for Mac(多功能代码编辑软件)v4.4注册激活版

小玖_苹果Mac软件

16.迭代器模式设计思想

杨充

多客校园圈子小程序源码 校园生活综合服务平台 校园服务小程序源码

DUOKE七七

美图海量短视频内容分析与检索(二)_文化 & 方法_声网_InfoQ精选文章