让机器读懂视频：亿级淘宝视频背后的多模态AI算法揭秘（三）-InfoQ

2021腾讯数字生态大会直播预约通道开启！技术内容大爆发，开发者必看！了解详情 



 写点什么

▐ 模态融合方法的设计

淘宝视频的多模态信息十分丰富，不同模态之间提供的信息内容并不是完全一致的。如何设计优秀的多模态特征融合方法，充分利用非结构化的多模态信息，将不同模态间的特征对齐到同一特征空间，使得不同模态信息之间取长补短，这是视频分类算法模型中最关键的模块。我们比较了多种不同的多模态特征融合方法，实验结果如图表格 1 所示。

(1) TFN 和 LMF(如图 5 所示)都是将多模态特征映射到不同模态间外积的高维特征空间进行特征融合。TFN[6]通过模态之间的外积计算不同模态的元素之间的相关性，但会极大的增加特征向量的维度，造成模型过大，难以训练。而 LMF[7]是 TFN 的等价形式，利用低秩矩阵的分解，将原本的各模态间的先外积再全连接变换过程，等价为各个模态先单独线性变换到输出维度，之后多个维度点积，可以看作是多个低秩向量的结果的和，LMF 相比 TFN 减少了很多参数量，是 TFN 的优化版本。但在视频分类的算法中，这 2 种方法的效果都不及预期，分析原因在于视频分类的模态特征长度都在千维左右，即使是 LMF 也会出现参数数量爆炸的情况，为了保证参数量不爆炸就必须先将每个模态特征降维，然而降维本身是有损的，导致降维后的模态特征再外积不如直接利用不同模态间特征拼接。

图五

(2) 淘宝视频不同模态之间信息通常是不一致的，这些不一致的模态信息之间有些内容和类别标签息息相关，有些内容则相关性较低。为了关注那些与类别标签相关性更高的模态信息，降低对于不重要模态信息的关注程度，我们提出了基于 Modal Attention 的多模态特征融合方法。Modal Attention 基于融合的特征向量预测一个模态个数维度的基于多模态联合特征的对于不同模态的重要性分布概率，这个模态分布概率与多模态融合特征做点积，得到对于不同模态特征重要性重新加权过后的新的多模态融合特征。从表格 1 可以看出，基于 Modal Attention 的多模态特征融合方法的准确率显著超过了 TFN 和 LMF，验证了基于 Modal Attention 的多模态特征融合方法的优势。

(3) 为了应对淘宝视频中出现的模态缺失情况，我们使用了 modal 级别的 dropout，在训练的时候以一定比例随机性去除某个模态信息，增加模型对于模态缺失的鲁棒性。在不添加 modal dropout 时，测试数据如果缺失 10%的模态信息，测试精度会下降 3.5%左右；在添加了 modal dropout 后，测试集精度下降不到 0.5%，几乎可以忽略。同时添加 modal dropout 后，就算模态信息不缺失的情况下，还能够提升测试集精度，提高约 0.4%。

表格一

▐ 层次化的分类器的设计

一般来说，分类任务只有单一的分类目标，然而，淘宝视频的标签体系是一种结构化的分层分类任务，同时具有一级类目和二级类目，一级类目和二级类目之间有依存关系，构成了一种树状的分类体系结构，例如：二级类目的熟女穿搭、少女穿搭、男士休闲等都属于一级类目的服饰类。针对这个任务，我们提出了分层多标签分类器（HMC）。

(1) 我们将 HMC 分类器与非常经典的 MLP 分类器做对比。MLP 分类器直接预测淘宝视频的二级类目标签，然后根据一二级类目之间的对应关系获得一级类目标签。HMC 分类器同时构建了一二级类目各自的分类通道，能够同时预测一二级类目标签，结构图如图 2 所示。这种分类器相比于 MLP，能够隐形的学习一二级类目的依赖关系，能够互相促进，提高分类精度，表格 1 的实验结果证明了这一点。

(2) 基于 HMC 分类器，我们添加了基于类别不匹配的多目标损失函数，具体公式见公式 2。损失函数 L 由三部分构成，分别是一级类目损失 L1，二级类目损失 L2，以及一二级类别不匹配损失 LH。一级类目损失和二级类目损失是一二级类目的交叉熵损失，能够使得网络同时学习到多模态特征与一二级类目的条件概率分布，同时能够隐形的学习到一二级类目之间的依赖关系。然而，仅仅使用一二级类目损失无法保证一二级类目之间的依赖关系，为了缓解这个问题，我们加入了类别不匹配损失，用于惩罚一二级类目不匹配的情况。参数 λ 用来控制一级类目损失和二级类目损失之间的重要性相对程度，因为二级类目数量更多，学习更加困难，需要添加更大的权重去学习。参数 β 用来调节类别不匹配损失对于总体损失函数的重要性。添加类别不匹配损失之后，一二级类目不匹配的情况大幅度下降，同时分类准确率也获得了提升。

公式二

总结和展望

Google AI 掌门人 Jeff Dean 在 NeurIPS 举办期间指出在 2020 年多模态学习将会有很大的发展，能够解决更多单模态无法解决的问题。我们提出的基于模态注意力机制的多模态分层视频分类算法方案为淘宝的视频内容化理解奠定了坚实的基础，为淘宝视频的精细化运营能力和冷启动能力做出了应有的贡献。与此同时，我们的方案还根据业务需求提供了无成本的可扩展能力，不仅能够助力图文内容化理解，提升图文的理解深度，同时还能通过精细的视频向量化表达来解决相似视频召回、视频抄袭检测的问题。

基于模态注意力机制的多模态分层视频分类算法方案为淘宝的视频内容化理解开了一个好头，后续我们还会在视频内容化理解的领域内继续耕耘。目前我们正在尝试更细粒度的多模态视频标签算法，力图将目前的 2 级视频类目体系推向 2 级视频类目+多级视频标签的体系，通过视频类目+视频标签的组合形式持续提升淘宝视频的精细化运营能力和冷启动能力。在多模态技术上，我们会继续关注如何更高效地进行模态融合，尝试将预训练技术引入多模态中，通过误差重建的方法让多个模态相互学习，提升模态融合的能力。

reference

[1] Szegedy C, Ioffe S, Vanhoucke V, et al. Inception-v4, inception-resnet and the impact of residual connections on learning[C]//Thirty-First AAAI Conference on Artificial Intelligence. 2017.

[2] Arandjelovic R, Gronat P, Torii A, et al. NetVLAD: CNN architecture for weakly supervised place recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 5297-5307.

[3] Hershey S, Chaudhuri S, Ellis D P W, et al. CNN architectures for large-scale audio classification[C]//2017 ieee international conference on acoustics, speech and signal processing (icassp). IEEE, 2017: 131-135.

[4] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.

[5] Wang W, Bi B, Yan M, et al. StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding[J]. arXiv preprint arXiv:1908.04577, 2019.

[6] Zadeh A, Chen M, Poria S, et al. Tensor fusion network for multimodal sentiment analysis[J]. arXiv preprint arXiv:1707.07250, 2017.

[7] Liu Z, Shen Y, Lakshminarasimhan V B, et al. Efficient low-rank multimodal fusion with modality-specific factors[J]. arXiv preprint arXiv:1806.00064, 2018.

[8] Wehrmann J, Cerri R, Barros R. Hierarchical multi-label classification networks[C]//International Conference on Machine Learning. 2018: 5225-5234.

本文转载自淘系技术公众号。

原文链接：https://mp.weixin.qq.com/s/kT01tMRPUCx307m0cF5x0w