【AICon】探索RAG 技术在实际应用中遇到的挑战及应对策略!AICon精华内容已上线73%>>> 了解详情
写点什么

美图海量短视频内容分析与检索(二)

  • 2019-11-30
  • 本文字数:977 字

    阅读完需:约 3 分钟

美图海量短视频内容分析与检索(二)

如何有效定义标签体系

我们有一个热门视频池,运营和产品会手动为一些视频打上标签。你可能会说,我们可以拿这部分标签做模型训练。如果我们将业务标签应用于算法会存在哪些问题呢?


一是业务的标签比较抽象,比如可能会制定像搞笑和幽默这样的一些标签。但一个视频是否算搞笑、幽默,无法仅从视觉或声音、语音等一些信息进行准确判定。


举个例子,一个 3 岁的小孩在哭,父母上传的可能会是一个搞笑的视频,如果是 20 多岁或者 50 多岁的人在哭,那就是一个悲伤的视频。


二是训练数据不均衡,上图是我们拿到的一部分业务标签对应的数据量,因为业务人员在定标签的时候不会考虑每个类别是什么样的,所以就会出现训练数据不均衡的问题,这个也会影响算法模型的训练。


另一个问题是类别区分度低。以上图为例,手指舞和自拍,从视觉角度来看没有任何区别,如果训练中强行将其分成两类,也会在训练过程中影响网络模型的学习,会引起一些噪声。


还有一个问题是标签的维度比较单一。通常一个视频,最多给四到五个维度的标签,再多的话,想全面衡量这个视频会变得非常复杂。


我们的解决方法是,以业务标签作为指引,拿我们的视频数据和文本数据(伴随视频的标题、评论相关信息)去提取视频特征、音频特征进行聚类,然后对聚类进行抽象定义,得出相应的视觉标签元素。这个标签元素就是我们用来训练的标签。最后训练标签输出的结果会反过来映射到业务标签,用这种方法定义的标签是多层级多维度的。


如下图所示,视频中是一个女生,视频中的姿态显示为全身,动作是在摇摆,检测到的音乐风格为摇滚,那么可以判断这个视频是一个美女在自拍,而且在跳舞,属于才艺展示,于是生成的标签就是“美女自拍”、“舞蹈”、“才艺”。这就完成一个算法标签到业务标签的映射。

如何提高线上算法模型的迭代更新效率

这里有三个核心问题:快速的数据标注、有效稳定的模型评估机制、算法运行的性能要有保障。


为了进行快速标注,我们也用了一个自动的算法标注,这个算法在无监督和半监督的深度学习的论文中被提到过。我们会预先拿一个通用的数据训练模型,对业务数据进行少量的标注,基于少量的标注数据再训练一个分类器。这个分类器会给其它未标注的进行标注。伴随标签输出会有一些置信度,会把高置信度的数据再拿去进行训练,低置信度的会继续下一次的迭代更新,这个过程会重复多次。这个过程也会根据任务的难度,加入人工的核验和标注。


2019-11-30 22:53697

评论

发布
暂无评论
发现更多内容

基于 KubeVela 的机器学习实践

阿里巴巴云原生

局部变量是线程安全的,原因是什么?

华为云开发者联盟

线程 高并发 变量 线程安全 局部变量

眼见为实,看看MySQL中的隐藏列!

码农参上

MVCC MySQL 数据库 4月月更

测试人员最佳测试管理工具

阿里云云效

阿里云 云原生 开发 测试管理 测试管理工具

图文并茂|彻底搞懂零拷贝(Zero-Copy)技术

简说Linux内核

内存管理 Linux内核 进程管理 嵌入式开发 设备驱动

百度程序员开发避坑指南(前端篇)

百度Geek说

前端

恒源云(Gpushare)_如何加速从 GitHub 上克隆代码或下载文件?技巧大放送8!

恒源云

GitHub

架构实战营:模块七作业

刘璐

恒源云(Gpushare)_啥,还不知道咋关机?技巧大放送6!

恒源云

人工智能 GPU服务器

fastposter v2.7.0 发布 电商海报编辑器

物有本末

海报 fastposter 海报生成器 海报编辑器 主图编辑器

netty系列之:netty中的核心编码器bytes数组

程序那些事

Java Netty 程序那些事 4月月更

2022年IAA行业品类发展洞察系列报告:内容向APP及休闲游戏的突围

易观分析

IAA 休闲游戏

一文简述:云原生架构的四个特征六个原则

穿过生命散发芬芳

4月月更

面向对象编程,你真正懂吗?

CRMEB

硅谷区块链公司Espresso Systems因涉嫌知识产权盗窃被起诉

西柚子

银行推进人工智能技术应用时需同步考量可信AI的评估与验证

易观分析

人工智能 AI

为什么客户体验为王

小炮

客户服务

皮皮APP联动社会各界,关注孤独症儿童,照亮人生成长的道路

联营汇聚

实例解析网络编程中的另类内存泄漏

华为云开发者联盟

TCP 网络编程 网络 压力测试 内存泄漏

pip:带你认识一个 Python 开发工作流程中的重要工具

华为云开发者联盟

Python 项目管理 pip 依赖关系 包管理器

日志中台不重不丢实现浅谈

百度开发者中心

恒源云(Gpushare)_如何获取实例SSH端口号?技巧大放送7!

恒源云

服务器 终端登录

王者荣耀商城异地多活架构设计

阿卷

架构实战营

后端开发【一大波干货知识】tcp/ip定时器与滑动窗口详解

Linux服务器开发

网络协议 TCP/IP 后端开发 Linux服务器开发 C++后台开发

音视频开发必懂知识—低延迟相关知识整理

Linux服务器开发

WebRTC ffmpeg 音视频开发 低延迟 流媒体服务器开发

王者荣耀商城异地多活架构设计

五月雨

架构实战营 「架构实战营」

多场景实现供应链可视化,小家电产业出海焕发新活力

数商云

产业数字化 供应链 供应链系统

CentOS8安装erlang 和 RabbitMQ

阿Q说代码

4月月更 RabbitMQ安装 erlang安装

实践GoF的设计模式:单例模式

华为云开发者联盟

程序设计 设计模式 单例模式 GoF 共享实例

日志中台不重不丢实现浅谈

百度Geek说

后端

如何满足一个前端对 Mock 的全部幻想

Liam

前端 Jmeter Postman Mock

美图海量短视频内容分析与检索(二)_文化 & 方法_声网_InfoQ精选文章