NVIDIA 初创加速计划,免费加速您的创业启动 了解详情
写点什么

SIGIR2018 高分录用——阿里妈妈公开全新 CVR 预估模型

  • 2018-05-15
  • 本文字数:3613 字

    阅读完需:约 12 分钟

近期,阿里妈妈算法团队发表了一篇题为《Entire Space Multi-Task Model: An Effective Approach for Estimating Post-Click Conversion Rate》的论文,公开了全新的 CVR 预估模型。该模型解决了传统 CVR 预估模型难以克服的样本选择偏差和训练数据过于稀疏的问题,同时开放了业界首个包含用户序贯行为的大规模数据集(下载地址见文末)。该论文已被信息检索领域的顶级会议 SIGIR 2018(International Conference on Research on Development in Information Retrieval)高分录用。

准确预估转化率在诸如信息检索、推荐系统、在线广告投放系统等工业级的应用中是至关重要的。例如在电商平台的推荐系统中,最大化场景商品交易总额(GMV)是平台的重要目标之一,而 GMV 可以拆解为流量×点击率×转化率×客单价,可见转化率是优化 GMV 目标的重要因子,从用户体验的角度来说准确预估的转换率被用来平衡用户的点击偏好与购买偏好。

阿里妈妈算法团队在这篇论文中提出的全新的 CVR 预估模型,称之为“全空间多任务模型”(Entire Space Multi-Task Model,ESMM),下文简称为 ESMM 模型。ESMM 模型创新地利用用户行为的序贯特性,在完整的样本数据空间同时学习点击率 (post-view click-through rate, CTR) 和转化率 (post-click conversion rate, CVR),解决了传统 CVR 预估模型难以克服的样本选择偏差(sample selection bias)和训练数据过于稀疏(data sparsity)的问题。

以电子商务平台为例,用户在观察到系统展现的推荐商品列表后,可能会点击自己感兴趣的商品,进而产生购买行为。换句话说,用户行为遵循一定的顺序决策模式:impression → click → conversion。CVR 模型旨在预估用户在观察到曝光商品进而点击到商品详情页之后购买此商品的概率,

即 _pCVR_ = p(conversion|click,impression)。

假设训练数据集为\(S=\{(x_i,y_i\rightarrow z_i)\}| _{i=1}^{N}\),其中的样本\((x,y\rightarrow z)\) 是从域\(x\times y\times z\) 中按照某种分布采样得到的,\(x\)是特征空间,\(y\) 和\(z\)是标签空间,N 为数据集中的样本总数量。在 CVR 预估任务中,x 是高维稀疏多域的特征向量,yz 的取值为 0 或 1,分别表示是否点击和是否购买。\(y\rightarrow z\) 揭示了用户行为的顺序性,即点击事情一般发生在购买事件之前。CVR 模型的目标是预估条件概率 _pCVR_ ,与其相关的两个概率为点击率 pCTR 和点击且转换率 pCTCVR ,它们之间的关系如下:



传统的CVR 预估任务通常采用类似于CTR 预估( https://yq.aliyun.com/articles/565664?spm=a2c4e.11153940.blogcont533977.27.7f0525438RIPVT )的技术,比如最近很流行的深度学习模型。然而,有别于 CTR 预估任务,CVR 预估任务面临一些特有的挑战:1) 样本选择偏差;2) 训练数据稀疏;3) 延迟反馈等。



图 1. 训练样本空间

延迟反馈的问题不在本文讨论的范围内,下面简单介绍一下样本选择偏差与训练数据稀疏的问题。如图 1 所示,最外面的大椭圆为整个样本空间 _S_,其中有点击事件(y=1)的样本组成的集合为 \(S_c=\{(x_j,z_j)|y_j=1\}|_{j=1}^{M}\)

对应图中的阴影区域,传统的 CVR 模型就是用此集合中的样本来训练的,同时训练好的模型又需要在整个样本空间做预测推断。由于点击事件相对于展现事件来说要少很多,因此\(S_c\)只是样本空间 _S_ 的一个很小的子集,从上\(S_c\) 提取的特征相对于从 _S_ 中提取的特征而言是有偏的,甚至是很不相同。从而,按这种方法构建的训练样本集相当于是从一个与真实分布不一致的分布中采样得到的,这一定程度上违背了机器学习算法之所以有效的前提:训练样本与测试样本必须独立地采样自同一个分布,即独立同分布的假设。总结一下,训练样本从整体样本空间的一个较小子集中提取,而训练得到的模型却需要对整个样本空间中的样本做推断预测的现象称之为样本选择偏差。样本选择偏差会伤害学到的模型的泛化性能。

推荐系统展现给用户的商品数量要远远大于被用户点击的商品数量,同时有点击行为的用户也仅仅只占所有用户的一小部分,因此有点击行为的样本空间\(S_c\) 相对于整个样本空间 _S_ 来说是很小的,通常来讲,量级要少 1~3 个数量级。如表 1 所示,在淘宝公开的训练数据集上,\(S_c\) 只占整个样本空间 _S_ 的 4%。这就是所谓的训练数据稀疏的问题,高度稀疏的训练数据使得模型的学习变得相当困难。



阿里妈妈算法团队提出的 ESMM 模型借鉴了多任务学习的思路,引入了两个辅助的学习任务,分别用来拟合 _pCTR_ 和 _pCTCVR_,从而同时消除了上文提到的两个挑战。ESMM 模型能够充分利用用户行为的序贯特性,其模型架构如图 2 所示。

图 2. ESMM 模型

整体来看,对于一个给定的展现,ESMM 模型能够同时输出预估的 _pCTR、pCVR_ 和 _pCTCVR_。它主要由两个子神经网络组成,左边的子网络用来拟合 _pCVR_ ,右边的子网络用来拟合 _pCTR_。两个子网络的结构是完全相同的,这里把子网络命名为 BASE 模型。两个子网络的输出结果相乘之后即得到 _pCTCVR_,并作为整个任务的输出。

需要强调的是,ESMM 模型有两个主要的特点,使其区别于传统的 CVR 预估模型,分别阐述如下。

  1. 在整个样本空间建模。由下面的等式可以看出,pCVR 可以在先估计出 _pCTR_ 和 _pCTCVR_ 之后推导出来。从原理上来说,相当于分别单独训练两个模型拟合出 _pCTR_ 和 _pCTCVR_,再通过 _pCTCVR_ 除以 _pCTR_ 得到最终的拟合目标 _pCVR_ 。



  • 但是,由于 _pCTR_ 通常很小,除以一个很小的浮点数容易引起数值不稳定问题(计算内存溢出)。所以 ESMM 模型采用了乘法的形式,而没有采用除法形式。

  • pCTR 和 _pCTCVR_ 是 ESMM 模型需要估计的两个主要因子,而且是在整个样本空间上建模得到的,pCVR 只是一个中间变量。由此可见,ESMM 模型是在整个样本空间建模,而不像传统 CVR 预估模型那样只在点击样本空间建模。

  1. 共享特征表示。ESMM 模型借鉴迁移学习的思路,在两个子网络的 embedding 层共享 embedding 向量(特征表示)词典。网络的 embedding 层把大规模稀疏的输入数据映射到低维的表示向量,该层的参数占了整个网络参数的绝大部分,需要大量的训练样本才能充分学习得到。由于 CTR 任务的训练样本量要大大超过 CVR 任务的训练样本量,ESMM 模型中特征表示共享的机制能够使得 CVR 子任务也能够从只有展现没有点击的样本中学习,从而能够极大地有利于缓解训练数据稀疏性问题。

需要补充说明的是,ESMM 模型的损失函数由两部分组成,对应于 _pCTR_ 和 _pCTCVR_ 两个子任务,其形式如下:



其中,\(\theta _{ctr}\) 和\(\theta _{cvr}\) 分别是CTR 网络和CVR 网络的参数, l(.) 是交叉熵损失函数。在 CTR 任务中,有点击行为的展现事件构成的样本标记为正样本,没有点击行为发生的展现事件标记为负样本;在 CTCVR 任务中,同时有点击和购买行为的展现事件标记为正样本,否则标记为负样本。

由于 ESMM 模型创新性地利用了用户行为的序贯特性在完整的样本空间进行建模,因此并没有公开的数据集可供测试,阿里妈妈算法团队从淘宝的实际推荐系统中采集了一个包含了用户序贯行为的全新数据集,并公开了一个采样版本,下载地址为: https://tianchi.aliyun.com/datalab/dataSet.html?dataId=408 。随后,分别在公开的数据集和淘宝生产环境的数据集上做了测试,相对于其他几个主流的竞争模型,都取得了更好的性能。

表2 是在公开数据集上的不同算法AUC 效果对比情况,其中BASE 模型是ESMM 模型中左边的子神经网络模型,由于其只在点击样本空间训练,会遭遇样本选择偏差和数据稀疏的问题,因为效果也是较差的。DIVISION 模型是先分别训练出拟合CTR 和CTCVR 的模型,再拿CTCVR 模型的预测结果除以CTR 模型的预测结果得到对CVR 模型的预估。ESMM-NS 模型是ESMM 模型的一个变种模型,其在ESMM 模型的基础上去掉了特征表示共享的机制。AMAN、OVERSAMPLING、UNBIAS 是三个竞争模型。

图3. 在淘宝生产环境数据集上几种不同算法的性能测试对比

图3 是ESMM 模型在淘宝生产环境数据集上的测试效果对比。相对于BASE 模型,ESMM 模型在CVR 任务中AUC 指标提升了 2.18%,在CTCVR 任务中AUC 指标提升了2.32%。通常AUC 指标提升0.1% 就可认为是一个显著的改进。

综上所述,ESMM 模型是一个新颖的CVR 预估方法,其首创了利用用户行为的序贯特性在完整样本空间建模,避免了传统CVR 模型经常遭遇的样本选择偏差和训练数据稀疏的问题,取得了显著的效果。同时,ESMM 模型中的子网络可以替换为任意的学习模型,因此ESMM 的框架可以非常容易地和其他学习模型集成,从而吸收其他学习模型的优势,进一步提升学习效果。此外,ESMM 建模的思想也比较容易被泛化到电商中多阶段行为的全链路预估场景,如 排序→展现→点击→转化 的行为链路预估,想象空间巨大。

原文**** 链接: https://arxiv.org/abs/1804.07931

数据集下载地址: https://tianchi.aliyun.com/datalab/dataSet.html?dataId=408

2018-05-15 18:3413032

评论

发布
暂无评论
发现更多内容

人工智能,应该如何测试?(二)数据挖掘篇

霍格沃兹测试开发学社

人工智能,应该如何测试?(六)推荐系统拆解

霍格沃兹测试开发学社

人工智能,应该如何测试?(七)大模型客服系统测试

霍格沃兹测试开发学社

日志系统:一条SQL更新语句是如何执行的?

TimeFriends

OpenAI Sora:60s超长长度、超强语义理解、世界模型。浅析文生视频模型Sora以及技术原理简介

蓉蓉

openai GPT-4 人工智

人工智能,应该如何测试?(三)数据构造与性能测试篇

霍格沃兹测试开发学社

做跨境电商,为什么要建独立站

Noah

提升团队工程交付能力,从“看见”工程活动和研发模式开始

阿里云云效

阿里云 云原生 云效

提升团队工程交付能力,从“看见”工程活动和研发模式开始

阿里巴巴云原生

阿里云 云原生 云效

天翼云超大规模高性能云基础底座、“息壤”获国资委权威认可!

编程猫

Sam Altman 联手苹果前首席设计官打造 AI 设备;特斯拉将推出无人驾驶出租车丨 RTE 开发者日报 Vol.178

声网

思考-使用JSON结构映射业务数据与数据库表结构

alexgaoyh

json 数据库 系统设计 映射

BSN-DID研究--主题二:发证方函数

BSN研习社

区块链 BSN did

【荣誉】第七在线出席ToB商业头条行业大会 斩获创新力产品奖

第七在线

5个为什么要做外贸网站推广的理由

九凌网络

IT外包服务助推企业产业融通

Ogcloud

IT IT外包 IT外包公司 IT外包服务 IT外包企业

DACI决策框架,给低效能企业一个机会

填空时光

项目管理 效能提升 效能工具 决策管理

云服务器干嘛的?带你掌握云计算的优势

一只扑棱蛾子

云服务器

去哪儿完成鸿蒙原生应用Beta版本开发,带来一站式在线旅行体验

最新动态

企业智能体(Agent)来袭!拥有“无限可能”的数智化AI底座

行云创新

AI 智能体 agent

教你如何使用Zig实现Cmpp协议

华为云开发者联盟

云计算 华为云 华为云开发者联盟 华为云短信服务 企业号2024年4月PK榜

我们是如何测试人工智能的(六)推荐系统拆解

测试人

人工智能 软件测试 自动化测试 测试开发

解锁ETLCloud中Kettle的用法

RestCloud

kettle 数据同步 ETL 数据集成

为什么中小企业普遍选择IT运维外包了?

Ogcloud

IT运维 IT外包 IT外包公司 IT外包服务 IT运维外包

阿里巴巴中国站按关键字搜索商品 API接口使用指南:快速获取商品ID、名称、描述、价格

技术冰糖葫芦

API Explorer API 文档

广州等级保护测评公司一览表2024

行云管家

等保 堡垒机 等级保护 等保测评

2024年LED显示屏租赁屏市场

Dylan

商业 LED显示屏 全彩LED显示屏 led显示屏厂家 舞台表演

行云防水堡-打造企业数据安全新防线

行云管家

网络安全 数据安全 防水堡

人工智能,应该如何测试?(四)模型全生命周期流程与测试图

霍格沃兹测试开发学社

人工智能,应该如何测试?(八)企业级智能客服测试大模型 RAG

霍格沃兹测试开发学社

一文读懂模块化赛道新的头部公链Meta Earth

大瞿科技

SIGIR2018高分录用——阿里妈妈公开全新CVR预估模型_语言 & 开发_杨旭东_InfoQ精选文章