企业在业务安全与数据合规过程中有哪些实践与挑战?戳此了解 了解详情
写点什么

数据就是杀手锏!优酷多端多场景下的视频推荐系统探索之路

  • 2019 年 4 月 28 日
  • 本文字数:2254 字

    阅读完需:约 7 分钟

数据就是杀手锏!优酷多端多场景下的视频推荐系统探索之路

在“推荐系统系列文章”里,我们已经了解过图文推荐系统音频推荐系统和一些新型的推荐系统算法。在本篇文章里,我们将带来视频推荐系统的技术解析和最新的进展,为此,我们专门采访到了优酷技术推荐算法负责人夏颉。

与图文推荐和音频推荐不同,视频推荐系统要考虑的元素更多,有的时候影响推荐结果的甚至是一些细微的因素。从 2017 年正式引入推荐算法到现在,优酷推荐系统到底经历了哪些迭代与创新?对于视频推荐系统来说,到底还有哪些可以探索的方向?本文将为你一一解答。


优酷推荐系统概况

夏颉告诉记者:“优酷是在 2017 年下半年开始进行算法化升级的。”


“刚开始是在某些重点场景实现单场景的千人千面,当我们在这些场景拿到很多不错的收益之后,才开始逐渐在全站推广。”夏颉说,直到去年,优酷才逐渐将单场景的推荐进行了多端、多场景上进行的融合,形成全网站一致化的推荐体验,用户现在在页面上看到的推荐内容就是在这时完成的。


至于为什么会在去年才逐渐向全站推广,夏颉解释说,视频推荐系统与文字推荐系统还是有很多不同的。由于文字提取主题和标签(tag)的方式更加容易,加之 NLP 技术发展了这么多年,技术理论与工业实践已经到达了相对可用的级别,所以实现起来会比较容易。


而计算机视觉领域虽然在近几年取得了比较迅速的发展,但还是停留在比较具象的层次,比如识别屋子里有一把椅子,或者识别桌子上有一瓶水等等。而对于画面中的人物正在进行的活动主题——譬如“屋子里的人正在家长里短或者激烈争吵”等等,推荐系统对这类主题的建模与识别还是相对来说比较困难的。


另外,夏颉补充道,用户对文章的消费很多时候是因为文章的主题,但是对于视频的消费是很多元化的,甚至可能是因为其中某一个很不起眼的因素所吸引。可能是因为某个场景的背景音乐,或者说主角使用的某个道具等等。所以,如何去判断一段视频中,哪些因素是吸引用户的关键,对于视频推荐系统来说是非常重要的。


“数据就是杀手锏”

在介绍完优酷推荐系统的概况后,记者进一步向夏颉了解了推荐系统技术层面的内容。


依托于阿里巴巴的数据储备,优酷拥有了大量的数据,并绘制出了更加精准的文娱知识图谱,夏颉说,数据就是优酷推荐系统的杀手锏


首先,从算法上来说,夏颉表示,对于视频推荐系统来说,最重要的是通过多模态的视频分析和内容标签的提取来充分理解视频;其次,要建立一个文娱领域的知识图谱,譬如某位男明星和女明星之间是夫妻关系,在用户观看这位男明星的视频时,是否能推荐他妻子的相关视频给用户;另外,怎样把知识图谱更好地应用在推荐系统的召回和排序中,也非常重要;同时,怎样把有联系的用户之间建立一个行为网络,通过这个行为网络更好地进行用户之间的熟人视频消费内容推荐,也是优酷在考虑的问题。


夏颉以用户画像为例进行了更详细的介绍。在优酷的用户群中,有一类叫做“小嫂子”,组成这个群体的核心成员是一些全职的家庭主妇,在进行视频推荐的时候,更多地会为这类用户推荐家庭伦理情感类的视频。


对于毫无数据的新用户,推荐算法又是如何进行精准推荐的呢?


夏颉说,这是一个非常有意思的话题,如果单独对优酷来讲,这会是一个大问题,但是现在,优酷是阿里经济中很重要的一环,这个问题就不再是难题了。


阿里巴巴基本上覆盖了当前大多数中国人线上线下的消费,例如某个用户可能在大麦上买过某场演唱会的票,或者可能在淘票票上买过某部电影的票,亦或者他可能在天猫上经常购买某一类动漫的手办等等,通过用户在衣食住行上的偏好或消费习惯,哪怕他没有进行内容消费,也是可以通过这些信息对他做出比较准确的推荐。


如果这个用户甚至都不在阿里经济覆盖范围之内,也有很多别的办法可以进行画像,比如从人口属性判断,用户来自哪个城市、属于哪个年龄层等等,根据和他相似人群的观看习惯,仍然可以为新用户做一些个性化的推荐。


除了算法上的优化,在推荐方式上,优酷也是下了一番功夫的。


夏颉举例说,在视频封面上,优酷已经开始大规模使用个性化配图推荐了。


夏颉告诉记者,封面个性化配图是在 2018 年下半年的时候大规模展开的。优酷对于上百部影视作品,每部都会配有至少十张以上的封面图,由设计进行产出,而算法会根据用户不同的行为消费偏好,推荐他可能更感兴趣的封面图,促进用户对内容的转化和消费。


而对于短视频,夏颉表示,优酷内部也有足够的技术储备:“我们现在能够智能生成短视频的封面图,并根据用户对短视频的消费进行个性化分发,在线上取得了很不错的收益。”


对于刚刚添加的新视频,优酷也能做到实时推荐。夏颉说,这一功能的实现得益于内部的一套冷启动算法系统,该系统能够保证每天百万级的短视频,在 24 小时内冷启动完毕,从而实现精准推荐。


除了上面提到的各种技术,近年来比较流行的强化学习、图像学习等技术也已经在优酷内部进行实验,或许在不久之后,用户就能体验到这些技术带来的便利。


未来规划

由于推荐系统技术也在不断迭代,在采访的最后,夏颉也谈了谈自己正在研究的方向和对推荐系统未来发展的一些规划。他表示自己也在关注着很多领域的进展,希望将最新的技术应用在推荐系统中。


比如多模态视频内容分析,它不仅可以对一些具象进行分析,还可以对一些抽象概念进行提取,就像前文中说的,可以理解某一个场景中正在发生什么事;另外,基于图计算的推荐系统也是夏颉正在研究的方向。


夏颉告诉记者,阿里文娱是一个覆盖了全端全场景的娱乐消费平台,怎么样在多端、多场景下做到消费体验一致化,并尽可能的提升用户在整个娱乐生态系统里的消费体验和市场,是一个需要长期不断探索的问题。


更多内容,请关注 AI 前线



2019 年 4 月 28 日 14:494529
用户头像
陈思 InfoQ编辑

发布了 576 篇内容, 共 226.8 次阅读, 收获喜欢 1252 次。

关注

评论 1 条评论

发布
用户头像
哈哈哈,不知所云。
2019 年 05 月 14 日 16:35
回复
没有更多了
发现更多内容

这份1307页Android面试全套真题解析,源码+原理+手写框架

欢喜学安卓

android 程序员 面试 移动开发

MySQL如何选择主键

架构精进之路

MySQL 3月日更

配置引起事故复盘

六维

3月日更

源码分析-Netty: 高性能之道

程序员架构进阶

Netty RPC 源码剖析 28天写作 3月日更

避免失控:谈谈人与人交往中的恶

boshi

职场 心理 七日更

一些人的某些目标

sadhu

生涯规划 职业规划 个人提升

好想做个女孩子,编程第一步,女装身上穿

GitHub指北

2021年Java春招高级面试指南(1到5年Java面试者必备)

比伯

Java 编程 架构 面试 程序人生

数据库备份真的很重要!很重要!很重要!

xiezhr

oracle sql MySQL 运维 数据备份

GitOps | 一种云原生的持续交付模型

xcbeyond

CI/CD gitops 3月日更

初识Golang之调用方法

Kylin

3月日更 Go 语言

远程协助软件向日葵分析

lenka

3月日更

《码农歌》

臧萌

加班

这些面试题你会吗?6年菜鸟开发面试字节跳动安卓研发岗,复习指南

欢喜学安卓

android 程序员 面试 移动开发

C++线程池ThreadPoolExecutor实现原理

Linux服务器开发

c++ 后端 线程池 Linux服务器开发 Linux后台开发

《Redis 核心技术与实战》学习笔记 05

escray

redis 学习 28天写作 3月日更 Redis 核心技术与实战

还有高仿项目吗

GitHub指北

十步输出设计文档

Arvin

设计实践

苹果笔记本充不进电的解决方案

石云升

电脑故障 28天写作 3月日更

寻找被遗忘的勇气(二十)

Changing Lin

3月日更

我在阿里实习做开源

apache/dubbo-go

微服务 程序人生 云原生 dubbo dubbogo

一口气面了腾讯两个部门!

我是程序员小贱

3月日更

蚂蚁二面:MQ消费端遇到瓶颈除了横向扩容外还有其他解决办法?

中间件兴趣圈

面试 RocketMQ 消息中间件

Wireshark数据包分析学习笔记Day17

穿过生命散发芬芳

Wireshark 数据包分析 3月日更

前端开发:Vue启动项目报错ValidationError:webpack Dev Server Invalid Options

三掌柜

vue.js 大前端 3月日更

[TcaplusDB知识库]TcaplusDB架构描述

TcaplusDB

数据库 nosql Tcaplus

所谓生产力

ES_her0

3月日更

基于SpringCloud,支持安卓、IOS、包含前后端等等完整网约车项目

Java架构追梦

Java 架构 面试 SpringCloud 网约车项目

【LeetCode】逆波兰表达式求值Java题解

HQ数字卡

算法 LeetCode 28天写作 3月日更

打通Jira与钉钉和企业微信不再难

跟YY哥学Jira

钉钉 Jira 企业微信 automation

分享18个常用的ECMAScript 6代码片段

devpoint

reduce URL参数解析 Form表单数据解析

WAVE SUMMIT 2022 深度学习开发者峰会

WAVE SUMMIT 2022 深度学习开发者峰会

数据就是杀手锏!优酷多端多场景下的视频推荐系统探索之路_AI_陈思_InfoQ精选文章