让机器读懂视频:亿级淘宝视频背后的多模态 AI 算法揭秘(一)

阅读数:1 2020 年 1 月 9 日 18:13

让机器读懂视频:亿级淘宝视频背后的多模态AI算法揭秘(一)

让机器读懂视频:亿级淘宝视频背后的多模态AI算法揭秘(一)

本文内容大纲:
1、多模态在视频分类算法中的应用探索
2、视频分类算法中的层次化分类器的设计
3、总结和展望

背景

随着 4G 的普及和 5G 的推出,内容消费的诉求越来越受到人们的重视。2019 年互联网趋势报告指出在移动互联网行业整体增速放缓的大背景下,短视频行业异军突起,成为“行业黑洞”抢夺用户时间,尽管移动互联网人口红利见顶,新的增长点难以寻觅,但中国短视频人均使用时长及头部短视频平台日均活跃用户均持续增常 (如图 1 所示)。
让机器读懂视频:亿级淘宝视频背后的多模态AI算法揭秘(一)
图一

在淘宝,短视频业务一直以来都是非常重要的业务,是淘宝 app 从单一的商品导购 app 走向商品导购 + 内容消费的多元化 app 的关键所在。相较于单一的商品导购,商品导购 + 内容消费的模式有效增加用户粘性,提高用户的停留时长,最终获得 GMV 的持续增长。不仅如此,2019 年视频营销发展趋势白皮书指出目前视频内容的转发量已达到图文的 12 倍,视频营销已经成为品牌最爱的营销方式,使用视频营销比不使用视频营销收入增长速度快 49%,且从搜索获得的网站流量多 41%。现如今淘宝每年新增内容数达数十亿,其中视频数占比持续提升,预计到 2022 年视频的占比会超过 50%。如何对规模如此庞大的视频进行内容化理解,高效赋能视频运营和个性化分发变得极为关键。

视频类目体系

视频内容化理解的首要问题是构建一个完备的、层次化的类目体系,相比于传统的淘宝商品类目体系,视频类目体系需要解决两大问题。

  • 一是提高运营的精细化能力,提供内容的盘货和定向生产、以及快速搭建会场的能力;
  • 二是针对新生产的视频提供冷启动能力,提升分发的效率。

虽然淘宝的商品类目体系可以部分代替视频类目体系的功能,但会导致短视频业务的用户心智和商品导购业务同质化,因此构建一套属于短视频业务自己的视频类目体系已经迫在眉睫。有了构建完成的视频类目体系,另外一个更重要的问题是产出高效的视频分类算法,用于对海量的视频进行标签生成。为了获得好的点击效果,视频生产者往往会采用吸引眼球的封面图或者标题,但是和视频本身的内容关联性很弱。此外,淘宝的视频天然和商品有强关联性,如何利用好商品的信息也非常关键。

不同于抖音美拍等其他视频的内容体系从新闻、科技、金融等领域做分类划分,淘宝的视频类目体系从商品导购、产品功能展示、商品知识获取等角度出发,由行业经验丰富的运营进行设计,包含了 30+ 一级类目和 150+ 二级类目,其中一级类目是对视频的领域的划分,例如服饰 / 家居日用 / 美食 / 萌宠等,二级类目是在一级类目的基础之上对视频的子领域的划分,例如一级类目服饰下的熟女穿搭 / 少女穿搭 / 儿童服饰 / 中老年穿搭等,图 2 是视频类目体系的几个案例。在这个体系之上多媒体算法团队投入近半年的时间提出了基于模态注意力机制的多模态分层视频分类算法。

让机器读懂视频:亿级淘宝视频背后的多模态AI算法揭秘(一)
图二

本文转载自淘系技术公众号。

原文链接: https://mp.weixin.qq.com/s/kT01tMRPUCx307m0cF5x0w

评论

发布