优酷在多模态内容理解上的研究及应用-InfoQ

GTLC全球技术领导力峰会·上海站，首批讲师正式上线！了解详情 



 写点什么

作为 4G、5G 时代最丰富的信息承载媒介，视频可以传达出的信息量远远超过声音、图像等单一渠道，浩如烟海的视频资源中蕴含的大量信息也还远未被充分挖掘。对于视频公司来说，如何将 AI 技术与海量视频资源结合，将成为一个潜力巨大的研发方向，带来的价值不可估量。在国内 AI 领域，多模态技术的研发历史虽然不久，但其带来的价值早已得到了充分验证。

本文中，来自优酷算法中心负责人王晓博将为我们解析，优酷是如何利用多模态技术，最大限度地挖掘视频信息，创造更大的价值。剪片子又快又好、还能制作鬼畜视频的 AI 视频剪辑师到底是如何做到的呢？让我们来一探究竟。

优酷作为一家超过 12 年的视频网站，其最大的数字资产便是存量数亿的视频，这不仅包括平台购买的版权 OGC 视频，更多的是用户上传的 UGC 视频。视频作为 4G、5G 时代信息最便捷的载体，给用户带来极大便利的同时也给各个互联网厂商带去了更大的挑战，富媒体信息的存储、计算以及分发对比单一的文字信息要困难很多。

图 1 视频处理流程

如图1 所示，不论是优爱腾这样的长视频网站还是抖音、快手、西瓜这样的短视频APP，其视频内容的处理都要经历类似的几个阶段。如何让机器理解视频内容信息是各个厂商都要面对的技术问题，内容理解并没有标准定义，但将视频本身作为处理单元的能力已经无法满足用户日益增长的内容需求。优酷在多媒体信息处理方面积累了多年，为了更好的支持视频内容理解及智能生产的需要，我们在2018年从算法中心抽调核心骨干力量组建认知实验室，主要聚焦在计算机视觉、视频结构分析与智能生成、智能影像处理以及视频质量四个方向。这篇文章将从优酷这一企业级应用的视角来介绍多模态内容理解在我们实际线上系统中的应用，文章结构如下：首先介绍简要多模态分析技术，然后结合优酷给出若干主要应用场景，接下来对多模态技术中一些难点做些剖析，最后是对未来的展望。

1 多模态分析技术简介

模态是个专有名词，在计算机信息处理的场景下，专指人接受信息的方式，包括视频、图像、文字、语音等不同的手段。多模态学习按照其所研究的问题大致分为如下几个方向：

表达学习：实际用途很广，主要将多个模态的信息转换为实值的向量，多用于召回、相关性计算以及预估特征
模态映射：影视剧中的剧情详细描述如何能与视频切片对应起来，在跨模态检索中应用较多
模态对齐：将图像中的实体与文字中的实体对应起来，这在视频语义检索中十分有用
协同学习：每个模态的标注任务都很挑战且成本高企，相对而言，文字模态的标注成本是比较低的，而如何能够在缺乏标注信息的模态数据上利用其它模态的数据进行训练对于节省成本共享信息非常有帮助

2 典型应用场景问题及挑战

2.1 视频搜索

信息检索的技术发展已经走过了几十年，而视频内容检索在企业里之前一直停留在关键字层面，主要检索的信息来源是视频的标题和描述，与文章、网页的检索架构区别不大，其原因除了技术上的挑战外，还有用户的需求通过关键字检索基本能够满足。

图 2 优酷业务构成

图 2 呈现了目前优酷的主要业务模块构成以及其搜索索引库的内容类型及品类，单纯的基于标题和描述作为被检索文本会遇到如下困难：

用户在上传 UGC 内容时，常会写“test“、”呵呵“这类无明确表意的词，或者文字信息与视频内容不相符
用户查询词意图呈现出多元化，即使是版权视频的搜索也不再集中于节目名字的搜索，社交与互动的需求逐渐增长
内容二次创作型的的用户对于视频内容语义检索的诉求显著增加，独立检索词数量近两年增长迅速

图 3 是一个比较典型的视频素材寻找类的查询词，图中给出的搜索结果是基于文字模态来进行的，明显可以看出这与用户的预期之间的差异，索引的内容并没有体现出对视频内容本身的理解。

图 3 语义搜索示例

图4中展示了多模态搜素问题的定义，被检索的对象是视频集合及其附属的meta信息，而输入的模态可以是文本、图像、音频或者视频，甚至哼唱影视剧中的主题曲片段或者讲出经典的台词都可以用于做检索query。

图 4 多模态搜索示意图

图5展示了更多的搜索示例，从搜索结果中我们可以看出，更深入的用机器去理解视频内容信息可以显著的提升用户搜索的满意度。图6是多模态搜索在影响的query集合上对搜索命中率以及点击率CTR的提升效果，数字结果也证实了在视频搜索中应用内容理解相关技术能够带来的作用。

图 5 多模态检索示例

图 6 多模态搜索实验效果

近两年深度学习在搜索推荐领域中得到了广泛的应用，我们不禁问自己一个问题，深度模型加向量化检索是否可以解决掉多模态/跨模态的检索问题呢？这里做过多年搜索的老兵都有一个清晰的认知，搜索不单是一个技术，更是一个业务，用户对于每一次搜索都有比较清晰的预期。学术界比较喜欢端到端的解决方案，但受制于可解释性和可控性的问题，企业级视频搜索引擎很少采用单一方案，比较可行的做法是将其它模态的信息通过降维转换到文本模态。图7是优酷视频搜索引擎的主体架构，主要包括以下几个关键部分：

视频理解与分析，对视频内容做细颗粒度拆解，将图像、视频动作、人物、声音、背景音乐等信息通过检测和识别等手段做标签化，通过上述手段完成对视频内容降维到文字模态的转换
视频内容逐帧向量化，为保证召回兜底，采用 query、视频向量化处理，作为文字模态召回的有益补充
搜索查询意图识别，用户在使用搜索时是有状态的，不同上下文环境下同一个查询词表达的意图不尽相同
搜索排序，排序对于搜索引擎是个至关重要的模块，既有算法技术的一面，更有业务属性的一面，这里要兼顾平台视角和用户视角，单纯的 CTR 优先或者业务干预优先都是不可取的，需要排序的设计者能够从机制设计的视角来思考

图 7 视频搜索引擎

2.2 视频推荐

视频网站对标国际一线厂商的话，诸如 Netflix 和 YouTube 这些网站，推荐在其中都扮演着至关重要的作用，以 Netflix 为例，推荐系统贡献了超过 70%的视频播放量，而在国内的三家长视频网站却不尽然，推荐的占比都在三分之一以下。中国大陆的用户和欧美的用户不同，国内的观众在电视剧上呈现出头部过于集中的现象，这与内容的供给方工业化程度低以及电视剧粗制滥造现象泛滥有直接关系，同时还受到主要电视台、视频网站的排播和宣推策略的影响。推荐和搜索类似，最擅长的是在信息爆炸的情境中解决信息过载的问题，如果视频节目候选集合比较小的情况下，推荐是否就失去了用武之地呢？回答是否定的，如抖音、快手这样的短视频 APP，因每天上传量都超过百万，甚至千万，人力所不能及，只能采用机器算法分发；但一部电视剧的宣发要面对的用户也是超过亿的量级，从货找人的维度，人力也无法处理，如何高效的利用数据产生生产力对于长视频网站也是一项核心竞争力。

图 8 是目前优酷推荐的算法架构，在视频推荐的问题上如何提升用户和推荐系统之间的信任度是我们面临的核心问题，因此推荐系统的智能化在去年被提到很高的优先级。从图中我们可以看出，目前的主要召回方式分为如下几种：

行为协同过滤，目前最主要的召回方式，由于版权视频的头部效应，这会导致更为严重的哈利波特现象
向量召回，也是一种被视频网站广泛应用的算法，不论是深度网络模型还是图嵌入方法都能够有效的缓解推荐冷启动的问题，但模型的可解释性以及有监督学习 label 的热度集中效应仍然是很有挑战性的问题
标签召回，以前用途比较广泛，但受制于准确性的问题，目前多家厂商都在弱化这一路匹配；Netflix 对于版权长视频雇佣专业内容运营来标注 content codes，在候选集不大的情况下比较好的解决了标签准确性的问题

图 8 视频推荐架构

视频推荐系统由于其基于统计机器学习算法的局限性，不可避免的出现头部过热甚至明显违背常识的推荐结果，推荐理由和交互式推荐都是缓解这一现象的有效方法。而运营的经验知识与数据算法间的有机结合将是国内视频网站推荐系统的重要演化方向，单纯的效率优先与头部新热剧集中的情况会形成较大的冲突，而推荐系统的智能化对于视频内容的理解提出了明确的需求；因为每个人喜欢同一个视频或者同一部电视剧的原因不尽相同，或者是某流量明星的粉丝、或者是喜爱某种题材、甚至是某种场景氛围。

图 9 给出了基于多模态分析技术的视频打标签示例，从这个例子我们可以看出，基于视频、音频、文字多个模态可以显著的提升标签分类的准确率，其缺点就是计算量较大，多个模态端到端的融合学习是一个技术难点。

图 9 多模态视频打标签

2.3 视频数字资产化

目前各个视频网站处理视频数据的颗粒度多数情况下都是 video 本身，能通过深度模型、图模型等方法学习出一个 video vector 来刻画视频特征空间是近年来新兴起的一种向量化方法。然而这对于视频媒资库的智能化需求而言是远远不够的，内容的二次创作、三次创作对于视频内容的解构有很高的要求，内容理解和拆解的颗粒度决定了智能媒资库对于视频业务的新价值。

图 10 视频解构分析及再生产

上图给出了智能媒资系统的两个主要技术应用，分别是视频多维解构分析和视频智能生产。

2.3.1 元素级解构

这里推荐大家阅读《STORY 故事：材质结构风格和银幕剧作的原理》这本书，好的视频内容，无论形式是长还是短，其拍摄的时候都是有逻辑洞现的。而视频内容解构在一定程度上可以看做是拍摄过程的逆过程，即逆向工程（Reverse Engineering）。从一个完整的视频且分出不同的片段，进而到镜头、关键帧、关键元素，这些能够形成一个树形结构（或者网状结构），每个图中的元素都是一个节点。针对视频形式、题材的区别，内容运营产品会构建不同的领域模型来指导解构，常用的模式如时间、地点、场景、任务、动作等等。

图 11 元素级解构分析

图 12 接吻动作分析

图11和图12分别给出了元素结构分析的框架示意图以及动作识别的例子，以表情识别为例，单纯的依赖图像这个模态是很难将准确率提升上去的，这也是人维度相关识别算法的一个难点，而引入声音这个模态就可以比较有效的帮助算法模型提升精度。

2.3.2 视频自动生成

当视频内容被拆解为细颗粒度的要素之后，智能媒资库才可能赋能视频生产，甚至视频原生广告。视频的全自动生成是一件很有挑战的事情，而内容的剪辑创作是机器目前比较难于胜任的工作，但是素材的搜索和推荐却是提效视频创作的有效手段。我们很多 PGC 合作伙伴在进行影剧综漫周边视频制作时都苦于视频元素的寻找和剪辑，而视频解构技术恰好可以赋能这一过程。

Netflix 于 2018 年公布了一项很有意思的工作，即电影个性化海报推荐，其原理就是针对不同的用户、不同的上下文选择不同的海报素材来呈现同一部电影的推荐结果，他们利用了强化学习相关的策略来做分发提效，目的是提升视频的点击率。而优酷这边碰到的缺是新的问题，全站有上万部存量电视剧、电影，为它们专门制作海报投入太大，网上能够抓取到的海报图往往比较陈旧，对用户的吸引力也大幅度减弱。因此，能否自动给这些视频生成海报图变成为了一项很有业务和技术挑战的课题，优酷算法中心的工程师和达摩院的科学家一起进行了深入研究，初步拿到了一些结果。

图 13 产生封面图的方法

图 14 自动生成封面图问题约束

图 13、图 14 都来自于优酷和达摩院在 NeurIPS 2018 Workshop of Video Understanding in Youku 的分享，封面图的生成来源于对内容的准确分析和解构。

3 对未来的展望

优酷未来在多模态方面的规划

视频内容的理解对于采、制、宣、发、播这五个核心业务环节，视频的搜索交互形态也会呈现出多元化的模态，且视频本身的元素化结构将会极大的助力内容再次创作，赋能给 PGC 生态。我们将在如下几个方向上持续加大投入：

视频解构分析与智能生产
交互式动态视频技术
端到端的多模态视频理解与分发算法
基于视频理解的内容评估技术
多模态对话式搜索技术

多模态技术未来发展

好的视频内容是能够激发观众的情感共鸣的，而很多用户追剧、看电影的动力之一就是分享感动和快乐，如何能够在移动时代抓住用户的碎片化时间和整块娱乐时间是各个视频网站争夺的焦点之一。近年来深度学习在多媒体数据上的突破性进展给多模态内容理解带来了新的机会，如何能够让机器“看懂“视频内容将会是视频网站核心技术的制高点之一。

多模态搜索推荐会成为视频信息获取的重要趋势，而向单一的文字模态做降维仅仅是开始，探索更为通用的端到端检索模型仍是需要解决的难题
随着互联网电视走入越来越多的家庭，围绕电视这个共享屏幕，更自然的多媒体交互方式将会极大的促进跨模态信息检索的研究
基于多模态内容分析解构技术的智能媒资库逐渐会成为视频网站、电视台、甚至企业内部平台的标配，这将会是一个很大的 to B 市场空间
目前短视频网站中占比较高的 PGC 二创视频生产逐渐会被 AI 取代，甚至智能算法可以生产出类似鬼畜类这样的视频，极大地提高生产效率

多模态内容理解作为一项逐渐走出学术象牙塔的技术，未来会在视频业务中扮演着越来越重要的角色。

作者介绍

王晓博，阿里大文娱集团资深算法专家，优酷算法中心负责人。2010 年博士毕业于北京航空航天大学计算机学院数据挖掘方向，先后在百度、搜狗商务搜索部门从事算法策略研发工作。2015 年加入阿里组建猜你喜欢算法团队，将猜你喜欢打造为手淘第一大导购场景，成为淘宝平台导购流量分发的核心入口。2018 年起负责优酷算法中心，组建认知实验室，推出了多模态搜索推荐引擎、视频理解与智能生成平台等系列产品。主要研究方向为大规模分布式机器学习算法、多模态交互搜索推荐系统、算法博弈论。

福利推荐

王晓博老师将在 QCon 北京 2019 的**“人工智能技术”专题做题为“结构化视频分析算法与应用”**的演讲。该专题还有多位行业内人工智能场景落地的专家，他们将多维度为大家呈现 AI 对行业的改造，以及 AI 升级带来的产业硕果。目前大会门票 9 折火热预定中，现在报名立减 880 元，团购还可享受更多优惠！点击 「阅读原文」或识别二维码即可查看大会完整日程。席位有限，马上拿起电话联系票务小姐姐 Ring 吧：电话/微信：17310043226