Multi-task多任务模型在推荐算法中应用_文化 & 方法_Alex-zhai



 写点什么

1.阿里 ESMM：Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate

CVR 是指从点击到购买的转化，传统的 CVR 预估会存在两个问题：样本选择偏差和稀疏数据。

样本选择偏差是指模型用用户点击的样本来训练，但是预测却是用的整个样本空间。数据稀疏问题是指用户点击到购买的样本太少。因此阿里提出了 ESMM 模型来解决上述两个问题：主要借鉴多任务学习的思路，引入两个辅助的学习任务，分别用来拟合 pCTR 和 pCTCVR。

ESMM 模型由两个子网络组成，左边的子网络用来拟合 pCVR，右边的子网络用来拟合 pCTR，同时，两个子网络的输出相乘之后可以得到 pCTCVR。因此，该网络结构共有三个子任务，分别用于输出 pCTR、pCVR 和 pCTCVR。假设用 x 表示 feature(即 impression),y 表示点击，z 表示转化，那么根据 pCTCVR = pCTR * pCVR，可以得到：

则 pCVR 的计算为：

由上面的式子可知，pCVR 可通过 pCTR 和 pCTCVR 推导出来，那么我们只需要关注 pCTR 和 pCTCVR 两个任务即可，并且 pCTR 和 pCTCVR 都可以从整个样本空间进行训练？为什么呢，因为对于 pCTR 来说可将有点击行为的曝光事件作为正样本，没有点击行为的曝光事件作为负样本，对于 PCTCVR 来说，将同时有点击行为和购买行为的曝光事件作为正样本，其他作为负样本。模型的 loss 函数：

另外两个子网络的 embedding 层是共享的，由于 CTR 任务的训练样本量要远超过 CVR 任务的训练样本量，ESMM 模型中 embedding 层共享的机制能够使得 CVR 子任务也能够从只有展现没有点击的样本中学习，从而能够极缓解训练数据稀疏性问题。

阿里 DUPN：Perceive Your Users in Depth: Learning Universal User Representations from Multiple E-commerce Tasks

多任务学习的优势：可共享一部分网络结构，比如多个任务共享一份 embedding 参数。学习的用户、商品向量表示可方便迁移到其它任务中。本文提出了一种多任务模型 DUPN：

模型分为行为序列层、Embedding 层、LSTM 层、Attention 层、下游多任务层。

行为序列层：输入用户的行为序列 x = {x1,x2,…,xN}，其中每个行为都有两部分组成，分别是 item 和 property 项。item 包括商品 id 和一些 side-information 比如店铺 id、brand 等（好多场景下都要带 side-information，这样更容易学习出商品的 embedding 表示）。property 项表示此次行为的属性，比如场景（搜索、推荐等场景）时间、类型（点击、购买、加购等）。
Embedding 层，主要多 item 和 property 的特征做处理。
LSTM 层：得到每一个行为的 Embedding 表示之后，首先通过一个 LSTM 层，把序列信息考虑进来。
Attention 层：区分不同用户行为的重要程度，经过 attention 层得到 128 维向量，拼接上 128 维的用户向量，最终得到一个 256 维向量作为用户的表达。
下游多任务层：CTR、L2R(Learning to Rank)、用户达人偏好 FIFP、用户购买力度量 PPP 等。
另外，文中也提到了两点多任务模型的使用技巧：
天级更新模型：随着时间和用户兴趣的变化，ID 特征的 Embedding 需要不断更新，但每次都全量训练模型的话，需要耗费很长的时间。通常的做法是每天使用前一天的数据做增量学习，这样一方面能使训练时间大幅下降；另一方面可以让模型更贴近近期数据。
模型拆分：由于 CTR 任务是 point-wise 的，如果有 1w 个物品的话，需要计算 1w 次结果，如果每次都调用整个模型的话，其耗费是十分巨大的。其实 user Reprentation 只需要计算一次就好。因此我们会将模型进行一个拆解，使得红色部分只计算一次，而蓝色部分可以反复调用红色部分的结果进行多次计算。

美团“猜你喜欢”深度学习排序模型

根据业务目标，将点击率和下单率拆分出来，形成两个独立的训练目标，分别建立各自的 Loss Function，作为对模型训练的监督和指导。DNN 网络的前几层作为共享层，点击任务和下单任务共享其表达，并在 BP 阶段根据两个任务算出的梯度共同进行参数更新。网络在最后一个全连接层进行拆分，单独学习对应 Loss 的参数，从而更好地专注于拟合各自 Label 的分布。

这里有两个技巧可借鉴下：

Missing Value Layer：缺失的特征可根据对应特征的分布去自适应的学习出一个合理的取值。
KL-divergence Bound：通过物理意义将有关系的 Label 关联起来，比如 p(点击) * p(转化) = p(下单)。加入一个 KL 散度的 Bound，使得预测出来的 p(点击) * p(转化)更接近于 p(下单)。但由于 KL 散度是非对称的，即 KL(p||q) != KL(q||p)，因此真正使用的时候，优化的是 KL(p||q) + KL(q||p)。

Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts

模型(a)最为常见，两个任务直接共享模型的 bottom 部分，只在最后处理时做区分，图(a)中使用了 Tower A 和 Tower B，然后分别接损失函数。
模型(b)是常见的多任务学习模型。将 input 分别输入给三个 Expert，但三个 Expert 并不共享参数。同时将 input 输出给 Gate，Gate 输出每个 Expert 被选择的概率，然后将三个 Expert 的输出加权求和，输出给 Tower。有点 attention 的感觉
模型©是作者新提出的方法，对于不同的任务，模型的权重选择是不同的，所以作者为每个任务都配备一个 Gate 模型。对于不同的任务，特定的 Gate k 的输出表示不同的 Expert 被选择的概率，将多个 Expert 加权求和，得到[公式]，并输出给特定的 Tower 模型，用于最终的输出。
其中 g（x）表示 gate 门的输出，为多层感知机模型，简单的线性变换加 softmax 层。

参考文献：

https://arxiv.org/pdf/1804.07931.pdf

https://www.jianshu.com/p/35f00299c059

https://arxiv.org/pdf/1805.10727.pdf

https://www.jianshu.com/p/aba30d1726ae

https://tech.meituan.com/2018/03/29/recommend-dnn.html

https://zhuanlan.zhihu.com/p/70

本文转载自 Alex-zhai 知乎账号。

原文链接：

https://zhuanlan.zhihu.com/p/78762586

发布

暂无评论

创作场景

Multi-task 多任务模型在推荐算法中应用

评论

由浅入深，揭秘企业级OLAP数据引擎ByteHouse

XView 架构升级之路

软件测试/测试开发 | 被测系统架构与数据流分析

WebUI自动化测试框架搭建之需求整理、详细设计和框架设计

软件测试/测试开发 | Frida 实现 Hook 功能的强大能力

带你认识3个J.U.C组件扩展

湖北文旅虚拟数字代言人“胡贝儿”首秀，赛博大象助力地方文旅元宇宙落地

中国电信天翼云喜获2022中国电子学会科技进步奖一等奖！三等奖！

软件测试/测试开发 | 软件项目管理与跨部门沟通协作

玩转GaussDB 中的SET操作符

堡垒机厂家电话多少？在哪里？怎么样？

SpEL表达式注入漏洞分析、检查与防御

2个月内如何在千人团队落地压测平台？

NFTScan 与 BNB Chain 达成战略合作，成为BNBChain Kickstart 官方数据服务提供商

软件测试/测试开发 | 被测项目需求你理解到位了么？

无服务器Serverless总结

容器化部署和传统部署的四个区别详细讲解-行云管家

助力企业数字化转型！涛思数据与永洪科技完成战略合作签约

安全可信| 天翼云全栈云原生安全防护平台入选工信部“2022年网络安全技术应用试点示范项目”！

一文看懂倚天云实例｜科普漫画

通过源码分析RocketMQ主从复制原理

阿里开源自研高性能核心搜索引擎 Havenask

昇腾AI新技能，还能预防猪生病？

14 条策略助力企业构建更安全的软件供应链

CocoaPods的使用问题

灰度直方图及直方图均衡化

数字先锋| 云端来养牛，致富有“犇”头

PostgreSQL：启动与停止

这样Debug，排查问题效率大大提升...

ChatGPT “眼”中的开源数据库

错题集

创作场景

Multi-task 多任务模型在推荐算法中应用

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载