谷歌大规模多目标排序实践：Youtube视频推荐核心技术_AI&大模型_深度传送门

本文主要介绍下 Google 在 RecSys 2019 上的最新论文[1]，提出了一套大规模多目标排序框架应用于 Youtube 视频推荐，引入 MMoE 解决多目标学习，以及解决用户隐式反馈中的 selection Bias 问题。

介绍

本文提出了一套大规模多目标排序框架应用于 Youtube 视频推荐平台。众所周知，Youtube 视频推荐面临着众多的挑战，包括需要解决多个互相竞争的排序目标、以及用户反馈中的选择偏差（selection bias）等等。为了解决这些问题，我们引入了 MMoE[2]来优化多目标排序目标。另外，我们改进了 W & D 框架来解决用户反馈的 selection bias。在 Youtube 视频推荐的线上实验也证明了本文算法的显著提升。

所谓相互竞争的排序目标，是指在排序的优化目标上往往是相互冲突的。比如我们不仅希望用户观看，还希望用户能给出高评价并分享。所谓用户隐式反馈中的选择偏差（selection bias），具体来说比如用户点击观看视频仅仅是因为它位置比较靠前，而非用户真正喜欢。因此用当前系统收集到的数据训练出来的模型会引发 bias，从而形成一个反馈循环，越来越偏。

模型架构

本文提出的系统模型架构如下图所示。具体来说，首先将需要学习的多目标分成两类：engagement 目标（点击、观看等用户参与度）和 satisfaction 目标（用户点赞、评论等喜欢程度）。

对于这两类稍微有点冲突的多目标任务，我们引入 MMoE 的结构来解决，并通过门结构来加权选择更好地学习独立的目标。

为了减少训练数据中的 selection bias（比如 position bias），我们添加了如下图左边的浅层塔，接收 selection bias 相关的特征作为输入（比如排序位置），输出则作为主模型最终预测的偏差项。模型将目标分解为两部分，一个是无偏的用户偏好，另一个是倾向分。模型结构可以看做是 Wide & Deep 的扩展，用以解决用户反馈中的 selection bias。

MMoE 结构

如前所述，本文将需要学习的多目标分为参与度和满意度两类，如果是分类问题就用 cross entropy loss 学习；如果是回归问题则用 square loss。最后用加权公式来平衡用户参与度和满意度指标，取得最佳效果。

多目标的排序系统中通常使用的是 shared-bottom 结构（如下图 a 所示），但是这种 hard-parameter 强行共享底层的方案对于相关性小的目标之间的任务，效果是此消彼长有损伤的。因此为了同时学习多个互相冲突的目标并达到平衡，我们采用并扩展 MMoE 结构来解决多目标冲突问题。

MMoE 结构设计的目的就是希望能够在不引入过多模型参数的前提下能够捕捉学习不同任务之间的区别。如下图 b 所示，网络结构上主要的区别是使用 MoE 层来替换共享的 ReLu 层，并为每一个任务单独添加一个额外的门结构。

消除 selection bias

在推荐排序系统中，用户的隐式反馈譬如点击、观看等被广泛地应用在训练深度排序网络模型中。但是用户的隐式反馈是有 bias 偏差的，最明显的就是 position bias，很多时候用户点击观看某个视频并不是因为真的喜欢某个视频，而仅仅只是因为其排序的位置比较靠前。因此我们需要去移除这种 bias，打破这种越来越偏的循环。

因此我们扩展了 W & D 网络结构，将模型的预测输出层分解成为两部分：学习 engagement 的 main tower；以及学习 selection bias 的 shallow tower。如下图所示，shallow tower 训练的时候将产生 selection bias 的特征譬如排序位置 bias 作为输入。在线预测时，位置特征设为 missing。

实验结果

Youtube 线上实验结果如下图所示，baseline 是常用的 Shared-Bottom 结构。可以看出 MMoE 结构在基线的基础上，在 engagement 和 satisfaction 的两个目标上均有显著提升。

与此同时，我们可以看到排序位置的 1-9 上的 ctr 分布如下图所示。这里面有两个方面因素，一方面预估 ctr 越高则排序位置越高；另一方面由于 position bias 的存在，排序位置越高则用户更容易点击。模型 shallow tower 学习到的 selection bias 分布也显示了这一点。

参考资料：

1. Recommending What Video to Watch Next: A Multitask Ranking System

2. Modeling Task Relationships in Multi-task Learning with Multi-Gate Mixture-of-Experts

3. https://zhuanlan.zhihu.com/p/82584437

本文授权转载自知乎专栏“深度推荐系统”。原文链接：https://zhuanlan.zhihu.com/p/88834117

发布

暂无评论

创作场景

谷歌大规模多目标排序实践：Youtube 视频推荐核心技术

介绍

模型架构

MMoE 结构

消除 selection bias

实验结果

评论

5G 和 Wi-Fi 市场与技术的一些思考系列之二

☕️从Java8到Java17的新特性（一）：Java8 的新特性

电脑就是我的安全感｜ONES 人物

一周热点回顾｜虎符交易所上线多链合一；俄央行称加强监控加密资产等P2P交易

Kubernetes API规范：为optional的字段使用pointer

最好的 6 个 React Table 组件详细亲测推荐

多场景推进服务网格在联通的落地实践（下）

Redis集群架构剖析(3)：集群处理redis-cli指令

Redis：在windows环境安装Redis

HertzBeat赫兹节拍 v1.0.beta.6 发布，Linux监控来啦

WebAssembly技术_JS调用C函数示例_传递参数、方法导出

小程序容器技术，App热更新与敏捷开发新方案

743 网络延迟时间

聊聊 C 语言和 ABAP 这两门编程语言的关系

收藏很久的资源整合网站，一个网站一个世界

使用 ABAP 开发的一个基于 Web Socket 的小工具，能提高程序员日常工作效率

一文搞定 Flutter 底部弹窗实现

RocketMQ的tag还有这个“坑”！

深入浅出事务的本质，附 OceanBase 事务解析14问！

数字化原住民｜ONES 人物

网络安全：绕过MSF的一次渗透测试

Python迎来31岁生日，蝉联年度编程语言排行榜冠军

小程序电商微服务设计

《软件开发的201个原则》思考：4. 高质量软件是可以实现的

如何在新公司快速落地

TDesign 更新周报（2022年3月第3周）

Git 如何回退代码

从 SVN 迁移到极狐GitLab

春分耕种时，AI“现身”田间地头

科幻变现实：喷下即疗愈，生物3D打印绘就生命密码图

计算机编码规则之:Base64编码

创作场景

谷歌大规模多目标排序实践：Youtube 视频推荐核心技术

介绍

模型架构

MMoE 结构

消除 selection bias

实验结果

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载