最新发布《数智时代的AI人才粮仓模型解读白皮书(2024版)》,立即领取! 了解详情
写点什么

阿里提出联合预估算法 JUMP:点击率和停留时长预测效果最优

  • 2018-06-05
  • 本文字数:1453 字

    阅读完需:约 5 分钟

停留时长预估

对于停留时间的预估,我们借鉴了“生存分析”(Survival Analysis) 的思想,通过时间发生的时间去近似用户在一个内容上停留的时间;从概念上来说,停留时长被认为是“离开当前内容”这个事件的发生时间。如果我们记用户的停留时长的样本为 O,假设存在一个函数,将 O 映射到一个简单的分布 f 上:

这里 f 可能是一个高斯分布,伽马分布等。可以证明的是:

其中 F 表示累计概率分布(CDF),T 是对 O 的在线近似。那么有了上述公式后,我们就可以使用最大似然估计去预估样本的停留时间。我们分析了 RecSys15 数据及上的停留时间,原始分布如左下图,然而我们对停留时间取 log 后,得到了右下图。我们很高兴的发现在取 log 之后,停留时间是符合正态分布的。

于是我们取 g 为 log 函数,f 为正态分布函数,最终我们能得到似然函数:

学习建模

我们记一个用户的会话为一个行为序列:\(s_k=\{(i_j,\log \tau _j,\delta _j)\},j=1,2,\cdots ,k\)。其中 i 表示第 j 个点击的商品,\(\tau _j\) 表示停留时间,而\(\delta _j\) 是一个 bool 类型,表示是否是会话的最后一个商品(或者停留时间过长)。我们假设样本是从一个分布 P(S) 中采样出来,那么可以将分布分解为 2 项的积。

其中前一项表示点击率的似然,后一项表示停留时间的似然;\(s_{k-1}\) 表示会话中第 k 次点击前的行为。为了从会话的行为中抽取更多的有效信息,我们提出了一种三层 RNN 模型去编码。

Attention Layer: 我们设计注意力机制主要目的是去除会话中的噪音,保留真正有效的信息。表示 fast-slow 层的输出,a 对应 attention 的权重,对应的计算方法如下面公式:

Fast-Slow Layer: fast-slow 层提出了一种新奇的 RNN 网络。当我们处理第 j 个输入\((i_j,\log \tau _j,\delta _j)\) 的时候,会进入一个 F-S 处理单元,其中包括一个慢元子和一个快元子序列,慢元子会记忆更多长期的记忆,而快元子会更多的获取当前的信息。F-S 处理单元如下图所示:

Embedding Layer: 网络的最底层是一个 embedding 层,该层将一个二元组\((i_j,\log \tau _j)\) 映射到一个向量上,我们使用 batch-normalizing 对输入进行标准化:

实验

为了验证算法的性能,我们将 JUMP 算法对比了主流的基于会话的预估算法,验证在点击率预估和停留时长预估上的效果。对比的算法包括 GRU、IGRU、NARM、DTGRU,RMTP、ATRP、NSR,使用的数据集是 RecSys15、CIKM16 和 REDDIT。

点击率预估的结果如下表所示,我们可以看到在全部数据集上,JUMP 算法都能超越其他算法,取得最好的 Recall、MRR 和 NDCG 指标。

同时我们观察了 embedding 维度对 recall 指标的影响,结果如下图。我们可以到看随着 embedding 维度的提升,recall 指标都能得到一定的上升,但是基本都在 100 维左右达到最高;其次,我们仍然可以发现,JUMP 算法取得的效果是优于其他算法的,蓝色曲线总是在其他曲线之上。

除了点击率外,我们观察了在时间预估这个任务上的效果,结果如下表所示。对比 ATRP、RMTP 和 NSR 算法,JUMP 能明显提升预估的准度。

总结

本文提出了一种新奇的算法 JUMP,同时预估一个会话中的点击率和停留时间。主要有 3 点重要贡献:

  1. 使用生存分析的方法来建模用户的停留时间,建立在可靠的数据理论基础上;
  2. 提出了一种三层的 RNN 结构,基于注意力机制能提升模型的鲁棒性,降低噪音的影响;
  3. 使用了一种全新设计的 fast-slow 结构,加强对短会话的学习能力。大量实验验证了算法的有效性,在多个公开数据集上的结果,对比其他的算法都有大幅提升。

论文全文链接:

http://www.cs.zju.edu.cn/people/qianhui/pub/Zhou18.pdf

公众号推荐:

跳进 AI 的奇妙世界,一起探索未来工作的新风貌!想要深入了解 AI 如何成为产业创新的新引擎?好奇哪些城市正成为 AI 人才的新磁场?《中国生成式 AI 开发者洞察 2024》由 InfoQ 研究中心精心打造,为你深度解锁生成式 AI 领域的最新开发者动态。无论你是资深研发者,还是对生成式 AI 充满好奇的新手,这份报告都是你不可错过的知识宝典。欢迎大家扫码关注「AI前线」公众号,回复「开发者洞察」领取。

2018-06-05 17:549339

评论

发布
暂无评论
发现更多内容

时隔两个多月,一起来看ChatGPT现况如何?

加入高科技仿生人

人工智能 AI 低代码 数字化

版本发布 | 九大功能优化,TDengine 3.0.4.0 稳定性、健壮性大幅提升

TDengine

tdengine 物联网 时序数据库

NFTScan 与 Web3 Analytics 达成合作伙伴,双方在多链 NFT 数据方面展开合作

NFT Research

NFT 区块链、

接口文档设计避坑指南

程序员小毕

面试 程序人生 后端 架构师 java程序员

共享电动车生产厂家!共享电单车厂商

共享电单车厂家

共享电动车厂家 共享电单车厂商 智能电动车生产

国内Google翻译失效的解决方法(MAC/WIN)

互联网搬砖工作者

海泰方圆成功当选黑龙江省商用密码协会会长单位

电子信息发烧客

chrome调试技巧(一)

知心宝贝

前端 后端 调试 三周年连更

浪潮海岳低代码平台inBuilder开源社区版正式发布

科技热闻

知你懂你,聪明得简直不像一台车,问界M5智驾版重磅升级鸿蒙3

Geek_2d6073

用友iuap平台一站式服务,助力央国企推进数智化转型

用友BIP

FastAPI入门

Liam

程序员 开发工具 API FastApi API 开发

什么是企业数智化的创新加速器?

用友BIP

技术大会 用友iuap 用友BIP 用友技术大会

这是你的云-云起实验室

六月的雨在InfoQ

开发者 实验室 三周年连更 云起实验室

如何通过Java应用程序在PPT中创建SmartArt图形

在下毛毛雨

Java PowerPoint 添加艺术图形

ChatGPT们接踵而至,AI会彻底改变我们的工作方式吗?

引迈信息

人工智能 AI 低代码 ChatGPT JNPF

「云原生」Elasticsearch + Kibana on k8s 讲解与实战操作

会踢球的程序源

Java elasticsearch Kibana

企业全面数智化转型,国产替代成为安全保障

用友BIP

技术大会 用友iuap 数智化转型 用友BIP 用友技术大会

苹果手机里面的udid怎么查出来

雪奈椰子

2023年如何成为一名优秀的大前端Leader?

这我可不懂

低代码 JNPF

Solr和Elasticsearch,搜索框架怎么选?

会踢球的程序源

Java

站群SEO是什么意思?站群SEO怎么做效果才好?

海拥(haiyong.site)

三周年连更

Zabbix5.0配置企业微信告警

A-刘晨阳

Linux zabbix 三周年连更

AutoCAD2024最新版介绍及autocad 2024系统要求

互联网搬砖工作者

升级企业数智化底座,构建数智连接全能力

用友BIP

技术大会 用友iuap 用友技术大会

从入门到实战 | 尚硅谷Nifi视频教程发布

小谷哥

IT知识百科:什么是SSID?

wljslmz

三周年连更 ssid

DLRover:云上自动扩缩容 DeepRec 分布式训练作业案例分享

AI Infra

程序员 AI 互联网 DLRover

Linux 这4个进程相关的命令,太好用!

wljslmz

三周年连更

海泰方圆受邀出席2023黄河观潮·信创与商用密码融合发展高峰研讨会

电子信息发烧客

听说谛听闹退休?感知网络接班啦!

脑极体

感知网络

阿里提出联合预估算法JUMP:点击率和停留时长预测效果最优_阿里巴巴_周腾飞_InfoQ精选文章