【AICon】探索八个行业创新案例,教你在教育、金融、医疗、法律等领域实践大模型技术! >>> 了解详情
写点什么

Multi-task 多任务模型在推荐算法中应用

  • 2019-11-29
  • 本文字数:2371 字

    阅读完需:约 8 分钟

Multi-task多任务模型在推荐算法中应用

1.阿里 ESMM:Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate


CVR 是指从点击到购买的转化,传统的 CVR 预估会存在两个问题:样本选择偏差和稀疏数据。



样本选择偏差是指模型用用户点击的样本来训练,但是预测却是用的整个样本空间。数据稀疏问题是指用户点击到购买的样本太少。因此阿里提出了 ESMM 模型来解决上述两个问题:主要借鉴多任务学习的思路,引入两个辅助的学习任务,分别用来拟合 pCTR 和 pCTCVR。



ESMM 模型由两个子网络组成,左边的子网络用来拟合 pCVR,右边的子网络用来拟合 pCTR,同时,两个子网络的输出相乘之后可以得到 pCTCVR。因此,该网络结构共有三个子任务,分别用于输出 pCTR、pCVR 和 pCTCVR。假设用 x 表示 feature(即 impression),y 表示点击,z 表示转化,那么根据 pCTCVR = pCTR * pCVR,可以得到:



则 pCVR 的计算为:



由上面的式子可知,pCVR 可通过 pCTR 和 pCTCVR 推导出来,那么我们只需要关注 pCTR 和 pCTCVR 两个任务即可,并且 pCTR 和 pCTCVR 都可以从整个样本空间进行训练?为什么呢,因为对于 pCTR 来说可将有点击行为的曝光事件作为正样本,没有点击行为的曝光事件作为负样本,对于 PCTCVR 来说,将同时有点击行为和购买行为的曝光事件作为正样本,其他作为负样本。模型的 loss 函数:



另外两个子网络的 embedding 层是共享的,由于 CTR 任务的训练样本量要远超过 CVR 任务的训练样本量,ESMM 模型中 embedding 层共享的机制能够使得 CVR 子任务也能够从只有展现没有点击的样本中学习,从而能够极缓解训练数据稀疏性问题。


  1. 阿里 DUPN:Perceive Your Users in Depth: Learning Universal User Representations from Multiple E-commerce Tasks


多任务学习的优势:可共享一部分网络结构,比如多个任务共享一份 embedding 参数。学习的用户、商品向量表示可方便迁移到其它任务中。本文提出了一种多任务模型 DUPN:



模型分为行为序列层、Embedding 层、LSTM 层、Attention 层、下游多任务层。


  • 行为序列层:输入用户的行为序列 x = {x1,x2,…,xN},其中每个行为都有两部分组成,分别是 item 和 property 项。item 包括商品 id 和一些 side-information 比如店铺 id、brand 等(好多场景下都要带 side-information,这样更容易学习出商品的 embedding 表示)。property 项表示此次行为的属性,比如场景(搜索、推荐等场景)时间、类型(点击、购买、加购等)。

  • Embedding 层,主要多 item 和 property 的特征做处理。

  • LSTM 层:得到每一个行为的 Embedding 表示之后,首先通过一个 LSTM 层,把序列信息考虑进来。

  • Attention 层:区分不同用户行为的重要程度,经过 attention 层得到 128 维向量,拼接上 128 维的用户向量,最终得到一个 256 维向量作为用户的表达。

  • 下游多任务层:CTR、L2R(Learning to Rank)、用户达人偏好 FIFP、用户购买力度量 PPP 等。

  • 另外,文中也提到了两点多任务模型的使用技巧:

  • 天级更新模型:随着时间和用户兴趣的变化,ID 特征的 Embedding 需要不断更新,但每次都全量训练模型的话,需要耗费很长的时间。通常的做法是每天使用前一天的数据做增量学习,这样一方面能使训练时间大幅下降;另一方面可以让模型更贴近近期数据。

  • 模型拆分:由于 CTR 任务是 point-wise 的,如果有 1w 个物品的话,需要计算 1w 次结果,如果每次都调用整个模型的话,其耗费是十分巨大的。其实 user Reprentation 只需要计算一次就好。因此我们会将模型进行一个拆解,使得红色部分只计算一次,而蓝色部分可以反复调用红色部分的结果进行多次计算。


  1. 美团“猜你喜欢”深度学习排序模型


根据业务目标,将点击率和下单率拆分出来,形成两个独立的训练目标,分别建立各自的 Loss Function,作为对模型训练的监督和指导。DNN 网络的前几层作为共享层,点击任务和下单任务共享其表达,并在 BP 阶段根据两个任务算出的梯度共同进行参数更新。网络在最后一个全连接层进行拆分,单独学习对应 Loss 的参数,从而更好地专注于拟合各自 Label 的分布。



这里有两个技巧可借鉴下:


  • Missing Value Layer:缺失的特征可根据对应特征的分布去自适应的学习出一个合理的取值。

  • KL-divergence Bound:通过物理意义将有关系的 Label 关联起来,比如 p(点击) * p(转化) = p(下单)。加入一个 KL 散度的 Bound,使得预测出来的 p(点击) * p(转化)更接近于 p(下单)。但由于 KL 散度是非对称的,即 KL(p||q) != KL(q||p),因此真正使用的时候,优化的是 KL(p||q) + KL(q||p)。


  1. Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts



  • 模型(a)最为常见,两个任务直接共享模型的 bottom 部分,只在最后处理时做区分,图(a)中使用了 Tower A 和 Tower B,然后分别接损失函数。

  • 模型(b)是常见的多任务学习模型。将 input 分别输入给三个 Expert,但三个 Expert 并不共享参数。同时将 input 输出给 Gate,Gate 输出每个 Expert 被选择的概率,然后将三个 Expert 的输出加权求和,输出给 Tower。有点 attention 的感觉

  • 模型©是作者新提出的方法,对于不同的任务,模型的权重选择是不同的,所以作者为每个任务都配备一个 Gate 模型。对于不同的任务,特定的 Gate k 的输出表示不同的 Expert 被选择的概率,将多个 Expert 加权求和,得到[公式],并输出给特定的 Tower 模型,用于最终的输出。

  • 其中 g(x)表示 gate 门的输出,为多层感知机模型,简单的线性变换加 softmax 层。


参考文献:


https://arxiv.org/pdf/1804.07931.pdf


https://www.jianshu.com/p/35f00299c059


https://arxiv.org/pdf/1805.10727.pdf


https://www.jianshu.com/p/aba30d1726ae


https://tech.meituan.com/2018/03/29/recommend-dnn.html


https://zhuanlan.zhihu.com/p/70


本文转载自 Alex-zhai 知乎账号。


原文链接:


https://zhuanlan.zhihu.com/p/78762586


2019-11-29 08:00865

评论

发布
暂无评论
发现更多内容

35K成功入职蚂蚁金服,现分享面试Java后端经历「内含面试题

爱好编程进阶

Java 面试 后端开发

1000道阿里巴巴初级~高级Java工程师面试题(含答案

爱好编程进阶

Java 面试 后端开发

如何在没有递归的情况下通过对给定二叉树执行中序遍历来打印所有节点?

InfoQ IT百科

ClassUtils常用方法总结

爱好编程进阶

Java 面试 后端开发

如何实现冒泡排序算法(bubble sort algorithm)?

InfoQ IT百科

Bootstrap Table数据表格的使用指南

爱好编程进阶

Java 面试 后端开发

CDH+Kylin三部曲之二:部署和设置

爱好编程进阶

Java 面试 后端开发

Kubernetes 中数据包的生命周期 -- 第 2 部分

Se7en

如何使用堆栈算出两个链表的总和?

InfoQ IT百科

162基于springboot宠物管理系统

爱好编程进阶

Java 面试 后端开发

3 个方法,教你提升程序员的自我价值

爱好编程进阶

Java 面试 后端开发

GPU微架构回顾

Finovy Cloud

GPU服务器 GPU算力

1000页神仙文档,连阿里P8面试官都说太详细了,面面俱到!搞懂这些直接P6+

爱好编程进阶

Java 面试 后端开发

浅析Redis分布式集群倾斜问题

五分钟学大数据

redis 4月月更

如何实现迭代快速排序算法(iterative quicksort algorithm)?

InfoQ IT百科

在没有递归的情况下如何反转单链表?

InfoQ IT百科

在不使用任何库的情况下,如何反转给定句子中的单词?

InfoQ IT百科

2021年阿里、腾讯、百度

爱好编程进阶

Java 面试 后端开发

2021最新一次Java面试,快手三面一轮游,如今已拿意向书

爱好编程进阶

Java 面试 后端开发

5年crud“经验”

爱好编程进阶

Java 面试 后端开发

操作系统国产化的难点是什么?

InfoQ IT百科

Activiti 自定义表单流程(全流程演示)

爱好编程进阶

Java 面试 后端开发

axios发送post请求,springMVC接收不到数据问题

爱好编程进阶

Java 面试 后端开发

“迈向元宇宙的一小步”鲁班会开发者深度论坛落地北京

华为云开发者联盟

音视频 opengauss 华为云 元宇宙 鲁班会

Dubbo如何处理业务异常,这个一定要知道哦!

爱好编程进阶

Java 面试 后端开发

Elasticsearch 中为什么选择倒排索引而不选择 B 树索引

爱好编程进阶

Java 面试 后端开发

与操作系统性能最相关的组件是什么?

InfoQ IT百科

给定一个乱序数组,如何搜索最大和最小元素?

InfoQ IT百科

2021最新Java面试标准,26个技术点一千多道面试题全曝光,赶紧学

爱好编程进阶

Java 面试 后端开发

如何在给定数组中执行二元搜索?

InfoQ IT百科

disruptor笔记之一:快速入门

爱好编程进阶

Java 面试 后端开发

Multi-task多任务模型在推荐算法中应用_文化 & 方法_Alex-zhai_InfoQ精选文章