写点什么

让机器读懂视频:亿级淘宝视频背后的多模态 AI 算法揭秘(三)

2020 年 1 月 09 日

让机器读懂视频:亿级淘宝视频背后的多模态AI算法揭秘(三)

▐ 模态融合方法的设计

淘宝视频的多模态信息十分丰富,不同模态之间提供的信息内容并不是完全一致的。如何设计优秀的多模态特征融合方法,充分利用非结构化的多模态信息,将不同模态间的特征对齐到同一特征空间,使得不同模态信息之间取长补短,这是视频分类算法模型中最关键的模块。我们比较了多种不同的多模态特征融合方法,实验结果如图表格 1 所示。


(1) TFN 和 LMF(如图 5 所示)都是将多模态特征映射到不同模态间外积的高维特征空间进行特征融合。TFN[6]通过模态之间的外积计算不同模态的元素之间的相关性,但会极大的增加特征向量的维度,造成模型过大,难以训练。而 LMF[7]是 TFN 的等价形式,利用低秩矩阵的分解,将原本的各模态间的先外积再全连接变换过程,等价为各个模态先单独线性变换到输出维度,之后多个维度点积,可以看作是多个低秩向量的结果的和,LMF 相比 TFN 减少了很多参数量,是 TFN 的优化版本。但在视频分类的算法中,这 2 种方法的效果都不及预期,分析原因在于视频分类的模态特征长度都在千维左右,即使是 LMF 也会出现参数数量爆炸的情况,为了保证参数量不爆炸就必须先将每个模态特征降维,然而降维本身是有损的,导致降维后的模态特征再外积不如直接利用不同模态间特征拼接。



图五


(2) 淘宝视频不同模态之间信息通常是不一致的,这些不一致的模态信息之间有些内容和类别标签息息相关,有些内容则相关性较低。为了关注那些与类别标签相关性更高的模态信息,降低对于不重要模态信息的关注程度,我们提出了基于 Modal Attention 的多模态特征融合方法。Modal Attention 基于融合的特征向量预测一个模态个数维度的基于多模态联合特征的对于不同模态的重要性分布概率,这个模态分布概率与多模态融合特征做点积,得到对于不同模态特征重要性重新加权过后的新的多模态融合特征。从表格 1 可以看出,基于 Modal Attention 的多模态特征融合方法的准确率显著超过了 TFN 和 LMF,验证了基于 Modal Attention 的多模态特征融合方法的优势。


(3) 为了应对淘宝视频中出现的模态缺失情况,我们使用了 modal 级别的 dropout,在训练的时候以一定比例随机性去除某个模态信息,增加模型对于模态缺失的鲁棒性。在不添加 modal dropout 时,测试数据如果缺失 10%的模态信息,测试精度会下降 3.5%左右;在添加了 modal dropout 后,测试集精度下降不到 0.5%,几乎可以忽略。同时添加 modal dropout 后,就算模态信息不缺失的情况下,还能够提升测试集精度,提高约 0.4%。



表格一


▐ 层次化的分类器的设计

一般来说,分类任务只有单一的分类目标,然而,淘宝视频的标签体系是一种结构化的分层分类任务,同时具有一级类目和二级类目,一级类目和二级类目之间有依存关系,构成了一种树状的分类体系结构,例如:二级类目的熟女穿搭、少女穿搭、男士休闲等都属于一级类目的服饰类。针对这个任务,我们提出了分层多标签分类器(HMC)。


(1) 我们将 HMC 分类器与非常经典的 MLP 分类器做对比。MLP 分类器直接预测淘宝视频的二级类目标签,然后根据一二级类目之间的对应关系获得一级类目标签。HMC 分类器同时构建了一二级类目各自的分类通道,能够同时预测一二级类目标签,结构图如图 2 所示。这种分类器相比于 MLP,能够隐形的学习一二级类目的依赖关系,能够互相促进,提高分类精度,表格 1 的实验结果证明了这一点。


(2) 基于 HMC 分类器,我们添加了基于类别不匹配的多目标损失函数,具体公式见公式 2。损失函数 L 由三部分构成,分别是一级类目损失 L1,二级类目损失 L2,以及一二级类别不匹配损失 LH。一级类目损失和二级类目损失是一二级类目的交叉熵损失,能够使得网络同时学习到多模态特征与一二级类目的条件概率分布,同时能够隐形的学习到一二级类目之间的依赖关系。然而,仅仅使用一二级类目损失无法保证一二级类目之间的依赖关系,为了缓解这个问题,我们加入了类别不匹配损失,用于惩罚一二级类目不匹配的情况。参数 λ 用来控制一级类目损失和二级类目损失之间的重要性相对程度,因为二级类目数量更多,学习更加困难,需要添加更大的权重去学习。参数 β 用来调节类别不匹配损失对于总体损失函数的重要性。添加类别不匹配损失之后,一二级类目不匹配的情况大幅度下降,同时分类准确率也获得了提升。



公式二


总结和展望


Google AI 掌门人 Jeff Dean 在 NeurIPS 举办期间指出在 2020 年多模态学习将会有很大的发展,能够解决更多单模态无法解决的问题。我们提出的基于模态注意力机制的多模态分层视频分类算法方案为淘宝的视频内容化理解奠定了坚实的基础,为淘宝视频的精细化运营能力和冷启动能力做出了应有的贡献。与此同时,我们的方案还根据业务需求提供了无成本的可扩展能力,不仅能够助力图文内容化理解,提升图文的理解深度,同时还能通过精细的视频向量化表达来解决相似视频召回、视频抄袭检测的问题。


基于模态注意力机制的多模态分层视频分类算法方案为淘宝的视频内容化理解开了一个好头,后续我们还会在视频内容化理解的领域内继续耕耘。目前我们正在尝试更细粒度的多模态视频标签算法,力图将目前的 2 级视频类目体系推向 2 级视频类目+多级视频标签的体系,通过视频类目+视频标签的组合形式持续提升淘宝视频的精细化运营能力和冷启动能力。在多模态技术上,我们会继续关注如何更高效地进行模态融合,尝试将预训练技术引入多模态中,通过误差重建的方法让多个模态相互学习,提升模态融合的能力。


reference


[1] Szegedy C, Ioffe S, Vanhoucke V, et al. Inception-v4, inception-resnet and the impact of residual connections on learning[C]//Thirty-First AAAI Conference on Artificial Intelligence. 2017.


[2] Arandjelovic R, Gronat P, Torii A, et al. NetVLAD: CNN architecture for weakly supervised place recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 5297-5307.


[3] Hershey S, Chaudhuri S, Ellis D P W, et al. CNN architectures for large-scale audio classification[C]//2017 ieee international conference on acoustics, speech and signal processing (icassp). IEEE, 2017: 131-135.


[4] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.


[5] Wang W, Bi B, Yan M, et al. StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding[J]. arXiv preprint arXiv:1908.04577, 2019.


[6] Zadeh A, Chen M, Poria S, et al. Tensor fusion network for multimodal sentiment analysis[J]. arXiv preprint arXiv:1707.07250, 2017.


[7] Liu Z, Shen Y, Lakshminarasimhan V B, et al. Efficient low-rank multimodal fusion with modality-specific factors[J]. arXiv preprint arXiv:1806.00064, 2018.


[8] Wehrmann J, Cerri R, Barros R. Hierarchical multi-label classification networks[C]//International Conference on Machine Learning. 2018: 5225-5234.


本文转载自淘系技术公众号。


原文链接:https://mp.weixin.qq.com/s/kT01tMRPUCx307m0cF5x0w


2020 年 1 月 09 日 18:14336

评论

发布
暂无评论
发现更多内容

Flink 如何实时分析 Iceberg 数据湖的 CDC 数据

Apache Flink

flink

BML CodeLab发布重磅更新 一键配好Windows WSL2 AI开发环境

百度大脑

为了让你在“口袋奇兵”聊遍全球,Serverless 做了什么?

阿里巴巴云原生

云计算 Serverless 云原生 监控 调度

火山版强势来袭!字节21版Java程序员面试涨薪手册现已开源

周老师

Java 编程 程序员 架构 面试

安卓软件开发文献!阿里P8架构师的Android大厂面试题总结,建议收藏

欢喜学安卓

android 程序员 面试 移动开发

第五周作业-流程图及时序图

Au revoir

【死磕JVM】JVM快速入门之前戏篇

牧小农

跨平台 虚拟机 Java虚拟机 JVM虚拟机原理 hotspot

API策略量化机器人系统开发|API策略量化机器人APP软件开发

开發I852946OIIO

系统开发

网络编程入门从未如此简单(二):假如你来设计TCP协议,会怎么做?

JackJiang

TCP 网络编程

LeetCode题解:152. 乘积最大子数组,动态规划,JavaScript,详细注释

Lee Chen

算法 LeetCode 前端进阶训练营

Agora 实时音视频调查工具水晶球

john

2021年,是时候把技术债务管理提上日程了

禅道项目管理

效率 产品 创新 技术债

MT马特量化机器人软件开发|MT马特量化机器人APP系统开发

开發I852946OIIO

系统开发

拒绝知识碎片化!阿里大牛亲码Java核心技能精讲笔记,系统梳理Java知识体系,金三银四面试必备!

程序员小毕

Java 程序员 架构 面试 分布式

Serverless 如何在阿里巴巴实现规模化落地?

Serverless Devs

阿里云 Serverless 云原生 前端

资深大牛带你了解源码!分析Android未来几年的发展前景,快来收藏!

欢喜学安卓

android 程序员 面试 移动开发

狂补计算机基础知识,让我上了瘾

沉默王二

计算机基础 计算机

程序员需要搞理财吗?

三石

理财 话题讨论

架构设计篇之微服务实战笔记(五)

小诚信驿站

架构师 刘晓成 小诚信驿站 成长笔记 28天写作

面面俱到!阿里SpringBoot全栈宝典新开源,Spring技术入门进阶提升必备!

Java王路飞

Java spring 程序员 面试 springboot

MySQL索引原理,一篇从头到尾讲清楚

云流

数据库 架构

中小公司开展NPS的好处

Geek_459987

一周信创舆情观察(2.8~2.21)

统小信uos

华为大神珍藏版:SpringBoot全优笔记,面面俱到太全了

互联网架构师小马

Java 架构 微服务 Spring Boot Spring Boot 2

神操作:就靠这份“Java核心技能精讲”,竟收割了22个Offer

比伯

Java 编程 架构 面试 计算机

连接AI与用户,京东云推出视音频通信技术方案

京东科技开发者

IoT 通信 视频会议

大数据时代

Mr.cool

使用PG_STAT_REPLICATION监视复制

PostgreSQLChina

数据库 postgresql 开源 软件 开源社区

iOS开发前景

ios

计算机视觉--opencv及paddlepaddle 环境安装

cloudcoder

细节完美炸裂!GtiHub上点赞已破百万的并发编程四套全彩手册

Java架构追梦

Java 阿里巴巴 架构 面试 并发

Hummer 轻量级跨端技术框架详解及实战

Hummer 轻量级跨端技术框架详解及实战

让机器读懂视频:亿级淘宝视频背后的多模态AI算法揭秘(三)-InfoQ