QCon上海站购票倒计时最后3天!查看精彩日程 了解详情
写点什么

阿里巴巴提出基于异构内容流的动态排序模型,提升用户点击和购买率

2018 年 7 月 09 日

题目(中英文):一种端到端的模型:基于异构内容流的动态排序 / An End-to-end Model of Predicting Diverse Ranking On Heterogeneous Feeds

主要作者(中英文):高子喆, 高正, 黄恒, 蒋卓人, 严玉良 / Zizhe Gao,Zheng Gao,Heng Huang,Zhuoren Jiang,Yuliang Yan

研究背景:

搜索引擎在电商领域扮演着极其重要的作用,其可以很好的引导用户的潜在购买行为。传统电商搜索引擎通常指商品搜索引擎,用户输入一个 query,返回一个商品列表。然而,随着自媒体的发展,越来越多的用户更愿意分享自己的购物体验,他们以文章、评价和视频等形式将自己的观点展示出来。在这篇文章中,这些统称为内容流。为了给用户提供更多的购物帮助,内容搜索引擎应运而生。在用户搜索商品的时候,给用户推荐高质量的内容流,帮助用户选择自己中意的以及用户可能喜欢的商品。

目前,对于异构数据的排序还存在很多的挑战。首先,商品搜索引擎和内容搜索引擎所提供的跨领域知识要被充分利用,使用户在商品搜索引擎中的行为偏好应用到内容搜索引擎中。其次,现有的算法需要支持多媒体内容的排序。

本文中,我们的目标是解决商品搜索引擎和内容搜索引擎中异构数据排序的问题,给用户推荐丰富的个性化的内容流。我们把算法分成了两部分:1)异构内容流类型排序,即决定每个坑位展示何种类型的内容流,文章、视频还是商品列表;2)同构的内容流内容排序,第二个步骤使用广为人知的DSSM 模型,在这个内容流类型下,对内容流的内容进行排序,选择相似度最高的内容插入。本文主要聚焦在第一个步骤。

所提出的算法:

本文提出两种算法用于内容流类型的排序,独立多臂老虎机算法和个性化马尔科夫深度神经网络算法。

在独立多臂老虎机算法中,我们需要计算一个比例\(\theta \),由ipv 和pv 计算而来,如果\(\theta \) 更高,表示当用户在搜索列表中看到这个内容流的时候,更有可能点击。对于每一个搜索坑位,我们先会计算一个\(\theta \) 的先验分布,这里我们使用Beta 分布\(\theta _i\sim B(\alpha _i,\beta _i)\), 其中i 表示post, list, video. \(\alpha _i\) 代表类型i 的历史ipv 点击数据,\(\beta _i\) 表示历史浏览数据。\(B(\alpha _i,\beta _i)\) 的期望是\(\frac{\alpha _i}{\alpha _i+\beta _i}\),后验概率分布通过一个实时的流数据任务来更新。表示为如下的概率公式:

通过这种方式,所有坑位的内容流类型都是独立的,伪代码如下:

有依赖的异构数据流类型选择由三种因素决定:用户,query 和前一个坑位类型。首先,在同一个query 下,用户可以表示出不同的偏好。比如用户搜索“连衣裙”,某个用户可能更偏好介绍的文章,另一个用户可能会更喜欢视频的介绍。而且,没有用户喜欢单一的类型展示,或多或少都喜欢多元化的内容流类型的排列。针对同一个query,应该给不同的用户展示不同的排序结果。我们提出的个性化马尔科夫深度神经网络算法包含两个步骤,包括对用户和query 的表示任务学习和坑位类型的预测学习。

用户和query 的低维表示 我们构建了一个graph,包含用户,query 和内容。使用node2vec 学习用户和query 的embedding,如下图:

图中的中间部分是训练节点的embedding 表示。输入层是节点的独热编码。权重矩阵W 是所有节点的embedding,其将节点独热编码映射到一个D 维的空间中。

坑位类型预测 我们的目标函数定义为

其中X 表示输入第i 个坑位的特征,为了简化我们pMDNN 模型并且加速运行的速度,我们只使用跟当前预测的坑位前一个坑位的信息。然而这带来了一个问题,如何预测第一个坑位的类型,这里我们使用到了跨领域知识,我们从用户最近在商品搜索引擎中浏览的宝贝信息中抽取将其映射为内容搜索坑位特征,使其满足当前模型的输入要求。我们的模型输入层为用户的embedding,query embedding 和前一个坑位的embedding。可以表示为

三个全连接层接入输入层中。每一层使用一个线性分类器和交叉熵作为loss function。激活函数选择Relu,输出层应用Softmax 为激活函数。

实验结果:

我们将提出的模型部署到A/B 测试分桶环境中,选择了5 个主要的指标来对比两个模型iMAB 和pMDNN. pv 代表展示内容的个数;pv click 表示展示的内容多少被点击;uv 是多少个用户使用了内容搜索引擎,uv click 表示多少用户点击了内容流;至于uv ctr,表示用户是否点击内容流的比率。

下表展示了实验结果,其中pMDNN 的实验结果优于iMAB。尤其是uv click 和uv ctr,这对于我们的场景非常重要,因为uv click 的增长表示更多的用户倾向于内容搜索引擎因为其能帮助他们更好的购物。同时,uv ctr 的增长展示出使用内容搜索引擎的用户对我们推荐的内容流是认可的。至于pv click 的提高也代表了我们提出的模型更加的符合用户的个性化需求。

基于pv click 和uv ctr,我们可以认为pMDNN 应用了跨领域知识并且全局优化多坑位类型确实要优于坑位独立的iMAB.

参考文献:

[1] Róbert Busa-Fekete and Eyke Hüllermeier. A survey of preference-based online learning with bandit algorithms.
[2] Ali Mamdouh Elkahky, Yang Song, and Xiaodong He. 2015. A multi-view deep learning approach for cross domain user modeling in recommendation systems. In Proceedings of the 24th International Conference on World Wide Web. International World Wide Web Conferences Steering Committee, 278–288.

2018 年 7 月 09 日 16:111635

评论

发布
暂无评论
发现更多内容

SpringBoot 如何进行对象复制,老鸟们都这么玩的

胧月

Java 架构 后端 计算机 框架

快速提升Golang编程能力:那就一起用Go做项目吧

博文视点Broadview

华为云GaussDB:发挥生态优势,培养应用型DBA

华为云开发者社区

数据库 开源 GaussDB 云数据库 dba

云资源生命周期管理怎么做?用什么软件好?

行云管家

云计算 云服务 云资源 生命周期管理

华为云与北大BIOPIC联合发布蛋白质多序列比对开源数据集

华为云开发者社区

华为云 AI模型 蛋白质 多序列 开源数据集

GraphQL 快速入门【2】环境设置

信码由缰

Rest graphql

代理服务器转发消息时的相关头部(qbit)

qbit

正向代理与反向代理 Proxy

淘宝网 Java 千亿级并发系统架构设计笔记(全彩版小册开源)

胧月

Java 架构 面试 后端 高并发

mongoDB

刘帅强

Android正确的保活方案,不要掉进保活需求死循环陷进

Halifax

android 前端 kotlin 移动开发 语言 & 开发

TDSQL是什么:腾讯如何打造一款金融级分布式数据库

腾讯云数据库

数据库 tdsql

TDSQL金融级特性之:数据强一致性保障

腾讯云数据库

数据库 tdsql

分布式TDSQL的实践

腾讯云数据库

数据库 tdsql

常见的安全应用识别技术有哪些?

郑州埃文科技

统信软件张磊:国产操作系统如何获得大众市场的认可?

Jessie

开源 最佳实践 新基建 企业动态 文化 & 方法

TDSQL核心架构

腾讯云数据库

数据库 tdsql

TDSQL数据同步和备份

腾讯云数据库

数据库 tdsql

数字化转型的终局:赛博朋克?社会主义?

龙归科技

数字化 软件系统 软件经济 赛博朋克

TDSQL 全时态数据库系统 -- 典型案例

腾讯云数据库

数据库 tdsql

MYSQL离线迁移至分布式TDSQL

腾讯云数据库

数据库 tdsql

Tensorflow保存神经网络参数有妙招:Saver和Restore

华为云开发者社区

神经网络 tensorflow 变量 Saver Restore

简化IT运维工作,就要学会使用自动化运维工具!

行云管家

运维 云服务 IT运维

明道云在工程项目行业中的应用场景

明道云

酷家乐 UI 自动化测试平台实践

CPPAlien

测试框架 selenium BDD UI测试 活文档

开放原子全球开发者峰会「开源治理」论坛预告(更新中)

开放原子开源基金会

「TEG+系列」破局者 - 腾讯金融级数据库TDSQL

腾讯云数据库

数据库 tdsql

马某兵VIP资料惨遭泄露,Java大厂面试手册,21年高频题版

Java架构师迁哥

鲲鹏展翅|SphereEx 获华为鲲鹏技术认证

SphereEx

TDSQL inside之路

腾讯云数据库

数据库 tdsql

TDSQL核心特性:极具挑战的“四高”服务与安全可运维

腾讯云数据库

数据库 tdsql

小游戏如何应对大流量?Shopee Shake 的大促实践

Shopee技术团队

后端 高并发 游戏 电商大促 Shopee

阿里巴巴提出基于异构内容流的动态排序模型,提升用户点击和购买率-InfoQ