写点什么

多任务学习在推荐算法中的应用(一)

2020 年 1 月 07 日

多任务学习在推荐算法中的应用(一)


导读:我们在优化推荐效果的时候,很多时候不仅仅需要关注 CTR 指标,同时还需要优化例如 CVR ( 转化率 )、视频播放时长、用户停留时长、用户翻页深度、关注率、点赞率这些指标。那么一种做法是对每个任务单独使用一个模型来优化,但是这样做的缺点显而易见,需要花费很多人力。其实很多任务之间都是存在关联性的,比如 CTR 和 CVR。那么能不能使用一个模型来同时优化两个或多个任务呢?其实这就是 Multi-task 多任务的定义。本文主要总结了近两年工业界关于 Multi-task 模型在推荐场景的一些应用和工作。


1. 阿里 ESMM

Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate


CVR 是指从点击到购买的转化,传统的 CVR 预估会存在两个问题:样本选择偏差和稀疏数据。



样本选择偏差是指模型用用户点击的样本来训练,但是预测却是用的整个样本空间。数据稀疏问题是指用户点击到购买的样本太少。因此阿里提出了 ESMM 模型来解决上述两个问题:主要借鉴多任务学习的思路,引入两个辅助的学习任务,分别用来拟合 pCTR 和 pCTCVR。



ESMM 模型由两个子网络组成,左边的子网络用来拟合 pCVR,右边的子网络用来拟合 pCTR,同时,两个子网络的输出相乘之后可以得到 pCTCVR。因此,该网络结构共有三个子任务,分别用于输出 pCTR、pCVR 和 pCTCVR。假设用 x 表示 feature ( 即 impression ),y 表示点击,z 表示转化,那么根据 pCTCVR = pCTR * pCVR,可以得到:



则 pCVR 的计算为:



由上面的式子可知,pCVR 可通过 pCTR 和 pCTCVR 推导出来,那么我们只需要关注 pCTR 和 pCTCVR 两个任务即可,并且 pCTR 和 pCTCVR 都可以从整个样本空间进行训练?为什么呢,因为对于 pCTR 来说可将有点击行为的曝光事件作为正样本,没有点击行为的曝光事件作为负样本,对于 PCTCVR 来说,将同时有点击行为和购买行为的曝光事件作为正样本,其他作为负样本。模型的 loss 函数:



另外两个子网络的 embedding 层是共享的,由于 CTR 任务的训练样本量要远超过 CVR 任务的训练样本量,ESMM 模型中 embedding 层共享的机制能够使得 CVR 子任务也能够从只有展现没有点击的样本中学习,从而能够极缓解训练数据稀疏性问题。


本文转载自 DataFunTalk 公众号。


**原文链接:https://mp.weixin.qq.com/s?__biz=MzU1NTMyOTI4Mw==&mid=2247496333&idx=1&sn=da03f8db68e5276cffe73e090ac271ec&chksm=fbd740e1cca0c9f76da90a713311bac81e9890c1f9fd69976705e167dd30e4135db6ea297d6b&scene=27#wechat_redirect


2020 年 1 月 07 日 09:49333

评论

发布
暂无评论
发现更多内容

大数据计算引擎Spark

积极&丧

福田区实现数字人民币六个100%,农行推出ATM机存取现功能

CECBC区块链专委会

数字红包

大作业:知识点图谱

paul

MapReduce函数分析

Mars

【HTML】全局属性:accesskey

学习委员

html html5 前端 快捷键 28天写作

人人都在谈的数字化转型,区块链技术能扮演何种角色?

CECBC区块链专委会

区块链

架构师第 10 课作业及学习总结

小诗

极客大学第二周作业

cafebaby

架构师第 9 课作业及学习总结

小诗

「架构师训练营第 1 期」

架构师第 11 课作业及学习总结

小诗

「架构师训练营第 1 期」

生命唯愿,爱与自由

废材姑娘

个人感悟

依赖倒置与接口隔离原则

玄月

架构师第 7 课作业及学习总结

小诗

「架构师训练营第 1 期」

Prometheus官方文档【查询篇-运算符】

卓丁

Prometheus Monitor 监控告警 普罗米修斯 PromQL

重学JS | this的指向问题

梁龙先森

前端 编程语言 28天写作

Python 100 天从新手到大师

GitHub指北

第七周学习心得

cc

数据应用总结(一)

Mars

Windows安装Mysql

千泷

大作业二

「架构师训练营第 1 期」

架构师第 12 课作业及学习总结

小诗

架构作业(二)

薛凯

架构师第 8 课作业及学习总结

小诗

「架构师训练营第 1 期」

第二周作业

MR.X

数字人民币为何频频入榜金融机构“工作单”

CECBC区块链专委会

数字人民币

JVM垃圾回收机制

andy

接私活必备的 6 个开源项目

GitHub指北

大作业一

饭桶

第 12 周作业

Steven

大作业二

饭桶

架构作业一

薛凯

多任务学习在推荐算法中的应用(一)-InfoQ