【AICon】探索RAG 技术在实际应用中遇到的挑战及应对策略!AICon精华内容已上线73%>>> 了解详情
写点什么

YouTube 深度学习推荐系统的十大工程问题

  • 2019-01-13
  • 本文字数:4626 字

    阅读完需:约 15 分钟

YouTube深度学习推荐系统的十大工程问题

这里是王喆的机器学习笔记的第三篇文章,这篇文章紧接着上篇文章 《重读 YouTube 深度学习推荐系统论文,字字珠玑,惊为神文》,如果没有读过的同学还是强烈建议翻看一下这篇文章,熟悉文中抛出的问题。


因为这篇文章主要介绍了 YouTube 深度学习系统论文中的十个工程问题,为了方便进行问题定位,我们还是简单介绍一下背景知识,简单回顾一下 Deep Neural Networks for YouTube Recommendations中介绍的 YouTube 深度学习推荐系统的框架。



YouTube 推荐系统架构


简单讲,YouTube的同学们构建了两级推荐结构从百万级别的视频候选集中进行视频推荐,第一级candidate generation model负责“初筛”,从百万量级的视频库中筛选出几百个候选视频,第二级ranking model负责“精排”,引入更多的feature对几百个候选视频进行排序。


不管是 candidate generation model 还是 ranking model 在架构上都是 DNN 的基本结构,不同的是输入特征和优化目标不同。但正如我在上一篇文章中讲的,如果你仅读懂了 YouTube 的模型架构,至多获得了 30%的价值,剩下 70%的价值就在于下面的十大工程问题。废话不多说,我们进入问题的解答。


1、文中把推荐问题转换成多分类问题,在预测 next watch 的场景下,每一个备选 video 都会是一个分类,因此总共的分类有数百万之巨,这在使用 softmax 训练时无疑是低效的,这个问题 YouTube 是如何解决的?


这个问题原文的回答是这样的


We rely on a technique to sample negative classes from the background distribution (“candidate sampling”) and then correct for this sampling via importance weighting.


简单说就是进行了负采样(negative sampling)并用 importance weighting 的方法对采样进行 calibration。文中同样介绍了一种替代方法,hierarchical softmax,但并没有取得更好的效果。当然关于采样的具体技术细节以及优劣可能再开一篇文章都讲不完,感兴趣的同学可以参考tensorflow中的介绍以及NLP领域的经典论文


也欢迎有相关经验的同学在评论中给出简明的回答。


2、在 candidate generation model 的 serving 过程中,YouTube 为什么不直接采用训练时的 model 进行预测,而是采用了一种最近邻搜索的方法?


这个问题的答案是一个经典的工程和学术做 trade-off 的结果,在 model serving 过程中对几百万个候选集逐一跑一遍模型的时间开销显然太大了,因此在通过 candidate generation model 得到 user 和 video 的 embedding 之后,通过最近邻搜索的方法的效率高很多。我们甚至不用把任何 model inference 的过程搬上服务器,只需要把 user embedding 和 video embedding 存到 redis 或者内存中就好了。


但这里我估计又要求助场外观众了,在原文中并没有介绍得到 user embedding 和 video embedding 的具体过程,只是在架构图中从 softmax 朝 model serving module 那画了个箭头(如下图红圈内的部分),到底这个 user vector 和 video vector 是怎么生成的?有经验的同学可以在评论中介绍一下。



Candidate Generation Model, video vector 是如何生成的?


3、Youtube 的用户对新视频有偏好,那么在模型构建的过程中如何引入这个 feature?


为了拟合用户对 fresh content 的 bias,模型引入了“Example Age”这个 feature,文中其实并没有精确的定义什么是 example age。按照文章的说法猜测的话,会直接把 sample log 距离当前的时间作为 example age。比如 24 小时前的日志,这个 example age 就是 24。在做模型 serving 的时候,不管使用那个 video,会直接把这个 feature 设成 0。大家可以仔细想一下这个做法的细节和动机,非常有意思。


当然我最初的理解是训练中会把 Days since Upload 作为这个 example age,比如虽然是 24 小时前的 log,但是这个 video 已经上传了 90 小时了,那这个 feature value 就是 90。那么在做 inference 的时候,这个 feature 就不会是 0,而是当前时间每个 video 的上传时间了。


我不能 100%确定文章中描述的是那种做法,大概率是第一种。还请大家踊跃讨论。


文章也验证了,example age 这个 feature 能够很好的把视频的 freshness 的程度对 popularity 的影响引入模型中。



从上图中我们也可以看到,在引入“Example Age”这个 feature 后,模型的预测效力更接近经验分布;而不引入 Example Age 的蓝线,模型在所有时间节点上的预测趋近于平均,这显然是不符合客观实际的。


4、在对训练集的预处理过程中,YouTube 没有采用原始的用户日志,而是对每个用户提取等数量的训练样本,这是为什么?


原文的解答是这样的,


Another key insight that improved live metrics was to generate a xed number of training examples per user, e ectively weighting our users equally in the loss function. This prevented a small cohort of highly active users from dominating the loss.


理由很简单,这是为了减少高度活跃用户对于 loss 的过度影响。


5、YouTube 为什么不采取类似 RNN 的 Sequence model,而是完全摒弃了用户观看历史的时序特征,把用户最近的浏览历史等同看待,这不会损失有效信息吗?


这个原因应该是 YouTube 工程师的“经验之谈”,如果过多考虑时序的影响,用户的推荐结果将过多受最近观看或搜索的一个视频的影响。YouTube 给出一个例子,如果用户刚搜索过“tayer swift”,你就把用户主页的推荐结果大部分变成 tayer swift 有关的视频,这其实是非常差的体验。为了综合考虑之前多次搜索和观看的信息,YouTube 丢掉了时序信息,讲用户近期的历史纪录等同看待。


但 RNN 到底适不适合 next watch 这一场景,其实还有待商榷,@严林 大神在上篇文章的评论中已经提到,youtube 已经上线了以 RNN 为基础的推荐模型, 参考论文如下: https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/46488.pdf


看来时隔两年,YouTube 对于时序信息以及 RNN 模型有了更多的掌握和利用。


6、在处理测试集的时候,YouTube 为什么不采用经典的随机留一法(random holdout),而是一定要把用户最近的一次观看行为作为测试集?


这个问题比较好回答,只留最后一次观看行为做测试集主要是为了避免引入 future information,产生与事实不符的数据穿越。


7、在确定优化目标的时候,YouTube 为什么不采用经典的 CTR,或者播放率(Play Rate),而是采用了每次曝光预期播放时间(expected watch time per impression)作为优化目标?


这个问题从模型角度出发,是因为 watch time 更能反应用户的真实兴趣,从商业模型角度出发,因为 watch time 越长,YouTube 获得的广告收益越多。而且增加用户的 watch time 也更符合一个视频网站的长期利益和用户粘性。


这个问题看似很小,实则非常重要,objective 的设定应该是一个算法模型的根本性问题,而且是算法模型部门跟其他部门接口性的工作,从这个角度说,YouTube 的推荐模型符合其根本的商业模型,非常好的经验。


我之前在领导一个算法小组的时候,是要花大量时间与 Business 部门沟通 Objective 的设定问题的,这是路线方针的问题,方向错了是要让组员们很多努力打水漂的,一定要慎之又慎。


8、在进行 video embedding 的时候,为什么要直接把大量长尾的 video 直接用 0 向量代替?


这又是一次工程和算法的 trade-off,把大量长尾的 video 截断掉,主要还是为了节省 online serving 中宝贵的内存资源。当然从模型角度讲,低频 video 的 embedding 的准确性不佳是另一个“截断掉也不那么可惜”的理由。


当然,之前很多同学在评论中也提到简单用 0 向量代替并不是一个非常好的选择,那么有什么其他方法,大家可以思考一下。


9、针对某些特征,比如 #previous impressions,为什么要进行开方和平方处理后,当作三个特征输入模型?


这是很简单有效的工程经验,引入了特征的非线性。从 YouTube 这篇文章的效果反馈来看,提升了其模型的离线准确度。


10、为什么 ranking model 不采用经典的 logistic regression 当作输出层,而是采用了 weighted logistic regression?


因为在第 7 问中,我们已经知道模型采用了 expected watch time per impression 作为优化目标,所以如果简单使用 LR 就无法引入正样本的 watch time 信息。因此采用 weighted LR,将 watch time 作为正样本的 weight,在线上 serving 中使用 e(Wx+b)做预测可以直接得到 expected watch time 的近似,完美。


十个问题全部答完,希望对大家有帮助。其实在上一篇文章抛出这十个问题的时候,已经有诸位大神做出了很好的回答,感谢 @做最闲的咸鱼 @严林 @吴海波。最后增加一个思考环节,大家可以讨论一下下面的问题:


1. 本论文中,用于 candidate generation 网络 serving 部分的 user embedding vector 和 video embedding vector 是怎么生成的?


2. Example age 这个 feature 的定义到底是什么?


3. 除了用 0 向量 embedding 替代长尾内容,有没有其他好的方法?


这里是 王喆的机器学习笔记 的第三篇文章,水平有限,不对之处欢迎吐槽、拍砖。下一篇文章我们一起讨论一下 Airbnb 的搜索推荐系统和 embedding 方法,如果大家有兴趣欢迎点赞鼓励。


公众号推荐:

2024 年 1 月,InfoQ 研究中心重磅发布《大语言模型综合能力测评报告 2024》,揭示了 10 个大模型在语义理解、文学创作、知识问答等领域的卓越表现。ChatGPT-4、文心一言等领先模型在编程、逻辑推理等方面展现出惊人的进步,预示着大模型将在 2024 年迎来更广泛的应用和创新。关注公众号「AI 前线」,回复「大模型报告」免费获取电子版研究报告。

AI 前线公众号
2019-01-13 14:008116

评论

发布
暂无评论
发现更多内容

Visual Studio Code for Mac(好用的微软代码编辑器)中文版

Rose

WebAssembly 助力云原生:APISIX 如何借助 Wasm 插件实现扩展功能?

API7.ai 技术团队

api 网关 APISIX Wasm

GaussDB(DWS)网络调度与隔离管控能力

华为云开发者联盟

数据库 大数据 华为云 华为云开发者联盟 企业号 4 月 PK 榜

手把手带你通过API创建一个loT边缘应用

华为云开发者联盟

IoT 边缘计算 华为云 华为云开发者联盟 企业号 4 月 PK 榜

软件测试/测试开发丨测试步骤代码修改,用 Yaml实现数据驱动

测试人

软件测试 自动化测试 yaml 测试开发 UI自动化测试

KgCaptcha接入汇总

宙哈哈

Java php Python C# html

IT采购,不再默默扛下“背刺”

脑极体

AI ChatGPT

百度研发效能从度量到数字化蜕变之路

百度Geek说

百度 研发效能 企业号 4 月 PK 榜 效能数字化

4种办法获得测试BNB,你一定需要知道

加密先生

sync.WaitGroup:掌握并发编程中的重要工具

Jack

数据库原理及MySQL应用 | 事件

TiAmo

MySQL 数据库 事件

软件测试/测试开发丨录制你的第一个web 自动化测试用例

测试人

软件测试 自动化测试 测试开发 Web自动化测试

助力企业数字化转型,「一体化」或是最佳实践路径

ToB行业头条

提高API采用率的关键:快速创建有效的API监控任务

云智慧AIOps社区

API api 网关 监控宝 API Gateway 监控产品

Bigasoft Video Downloader Pro :视频网站下载和转换视频器

Rose

一文读懂华为云云原生产品及开源实践

华为云开发者联盟

开源 云原生 华为云 华为云开发者联盟 企业号 4 月 PK 榜

通过 NFTScan 追踪 NFT 钻石手持仓

NFT Research

NFT NFTScan

对谈阿里云祝顺民:经济复苏,云网络如何加速企业效率提升?

云布道师

云网络

精彩回顾 | 2023工赋Meetup—上海站

工赋开发者社区

World Clock Deluxe for Mac(世界时钟豪华版)

Rose

学了这么久的高并发编程,连Java中的并发原子类都不知道?

华为云开发者联盟

Java 开发 华为云 华为云开发者联盟 企业号 4 月 PK 榜

AutoCAD(CAD2024)中文特别版Mac/win

Rose

CAD绘图 cad2024激活版

为什么ChatGPT不是中国搞出来的?

慕枫技术笔记

人工智能 后端 4月月更

zkSync Era发币教程:配置本地环境、部署智能合约

加密先生

智能合约 公链

景顺长城基于 Apache APISIX 在金融云原生的生产实践

API7.ai 技术团队

api 网关 APISIX 金融业务

上网买个东西,居然需要那么多业务系统支撑!

产品海豚湾

SaaS 电商 供应链 电商平台 wms

以技术赋能智慧酒店,思岚科技亮相上海酒店展

科技热闻

互联网出海风大雨大,融云助力 App 守护用户「被遗忘权」

融云 RongCloud

互联网 安全 融云 泛娱乐

4 种办法获得测试 BNB,你一定需要知道

加密先生

区块链、 bnb

PCB拼板,不得不注意的10个问题!

华秋PCB

电路 PCB PCB设计 拼版 邮票孔

一文吃透信息化、数字化、智能化三者不同的概念

这我可不懂

低代码 数字化 信息化 JNPF

YouTube深度学习推荐系统的十大工程问题
_AI&大模型_王喆_InfoQ精选文章