写点什么

阿里巴巴提出基于异构内容流的动态排序模型,提升用户点击和购买率

2018 年 7 月 09 日

题目(中英文):一种端到端的模型:基于异构内容流的动态排序 / An End-to-end Model of Predicting Diverse Ranking On Heterogeneous Feeds

主要作者(中英文):高子喆, 高正, 黄恒, 蒋卓人, 严玉良 / Zizhe Gao,Zheng Gao,Heng Huang,Zhuoren Jiang,Yuliang Yan

研究背景:

搜索引擎在电商领域扮演着极其重要的作用,其可以很好的引导用户的潜在购买行为。传统电商搜索引擎通常指商品搜索引擎,用户输入一个 query,返回一个商品列表。然而,随着自媒体的发展,越来越多的用户更愿意分享自己的购物体验,他们以文章、评价和视频等形式将自己的观点展示出来。在这篇文章中,这些统称为内容流。为了给用户提供更多的购物帮助,内容搜索引擎应运而生。在用户搜索商品的时候,给用户推荐高质量的内容流,帮助用户选择自己中意的以及用户可能喜欢的商品。

目前,对于异构数据的排序还存在很多的挑战。首先,商品搜索引擎和内容搜索引擎所提供的跨领域知识要被充分利用,使用户在商品搜索引擎中的行为偏好应用到内容搜索引擎中。其次,现有的算法需要支持多媒体内容的排序。

本文中,我们的目标是解决商品搜索引擎和内容搜索引擎中异构数据排序的问题,给用户推荐丰富的个性化的内容流。我们把算法分成了两部分:1)异构内容流类型排序,即决定每个坑位展示何种类型的内容流,文章、视频还是商品列表;2)同构的内容流内容排序,第二个步骤使用广为人知的DSSM 模型,在这个内容流类型下,对内容流的内容进行排序,选择相似度最高的内容插入。本文主要聚焦在第一个步骤。

所提出的算法:

本文提出两种算法用于内容流类型的排序,独立多臂老虎机算法和个性化马尔科夫深度神经网络算法。

在独立多臂老虎机算法中,我们需要计算一个比例\(\theta \),由ipv 和pv 计算而来,如果\(\theta \) 更高,表示当用户在搜索列表中看到这个内容流的时候,更有可能点击。对于每一个搜索坑位,我们先会计算一个\(\theta \) 的先验分布,这里我们使用Beta 分布\(\theta _i\sim B(\alpha _i,\beta _i)\), 其中i 表示post, list, video. \(\alpha _i\) 代表类型i 的历史ipv 点击数据,\(\beta _i\) 表示历史浏览数据。\(B(\alpha _i,\beta _i)\) 的期望是\(\frac{\alpha _i}{\alpha _i+\beta _i}\),后验概率分布通过一个实时的流数据任务来更新。表示为如下的概率公式:

通过这种方式,所有坑位的内容流类型都是独立的,伪代码如下:

有依赖的异构数据流类型选择由三种因素决定:用户,query 和前一个坑位类型。首先,在同一个query 下,用户可以表示出不同的偏好。比如用户搜索“连衣裙”,某个用户可能更偏好介绍的文章,另一个用户可能会更喜欢视频的介绍。而且,没有用户喜欢单一的类型展示,或多或少都喜欢多元化的内容流类型的排列。针对同一个query,应该给不同的用户展示不同的排序结果。我们提出的个性化马尔科夫深度神经网络算法包含两个步骤,包括对用户和query 的表示任务学习和坑位类型的预测学习。

用户和query 的低维表示 我们构建了一个graph,包含用户,query 和内容。使用node2vec 学习用户和query 的embedding,如下图:

图中的中间部分是训练节点的embedding 表示。输入层是节点的独热编码。权重矩阵W 是所有节点的embedding,其将节点独热编码映射到一个D 维的空间中。

坑位类型预测 我们的目标函数定义为

其中X 表示输入第i 个坑位的特征,为了简化我们pMDNN 模型并且加速运行的速度,我们只使用跟当前预测的坑位前一个坑位的信息。然而这带来了一个问题,如何预测第一个坑位的类型,这里我们使用到了跨领域知识,我们从用户最近在商品搜索引擎中浏览的宝贝信息中抽取将其映射为内容搜索坑位特征,使其满足当前模型的输入要求。我们的模型输入层为用户的embedding,query embedding 和前一个坑位的embedding。可以表示为

三个全连接层接入输入层中。每一层使用一个线性分类器和交叉熵作为loss function。激活函数选择Relu,输出层应用Softmax 为激活函数。

实验结果:

我们将提出的模型部署到A/B 测试分桶环境中,选择了5 个主要的指标来对比两个模型iMAB 和pMDNN. pv 代表展示内容的个数;pv click 表示展示的内容多少被点击;uv 是多少个用户使用了内容搜索引擎,uv click 表示多少用户点击了内容流;至于uv ctr,表示用户是否点击内容流的比率。

下表展示了实验结果,其中pMDNN 的实验结果优于iMAB。尤其是uv click 和uv ctr,这对于我们的场景非常重要,因为uv click 的增长表示更多的用户倾向于内容搜索引擎因为其能帮助他们更好的购物。同时,uv ctr 的增长展示出使用内容搜索引擎的用户对我们推荐的内容流是认可的。至于pv click 的提高也代表了我们提出的模型更加的符合用户的个性化需求。

基于pv click 和uv ctr,我们可以认为pMDNN 应用了跨领域知识并且全局优化多坑位类型确实要优于坑位独立的iMAB.

参考文献:

[1] Róbert Busa-Fekete and Eyke Hüllermeier. A survey of preference-based online learning with bandit algorithms.
[2] Ali Mamdouh Elkahky, Yang Song, and Xiaodong He. 2015. A multi-view deep learning approach for cross domain user modeling in recommendation systems. In Proceedings of the 24th International Conference on World Wide Web. International World Wide Web Conferences Steering Committee, 278–288.

2018 年 7 月 09 日 16:111446

评论

发布
暂无评论
发现更多内容

民进昆明市委:建议利用区块链技术优势在昆明打造金融应用平台

CECBC区块链专委会

金融 金融区块链

“新内容 新交互” 阿里云全球视频云创新挑战赛正式开启!

阿里云视频云

阿里云 音视频 应用 音视频算法

以终为始:28天打卡输出复盘

熊斌

个人成长 写作平台 28天写作

一周信创舆情观察(1.25~1.31)

统小信uos

面试加分项!我在美团Android研发岗工作的那5年,系列篇

欢喜学安卓

android 程序员 面试 移动开发

LeetCode题解:529. 扫雷游戏,DFS,JavaScript,详细注释

Lee Chen

算法 LeetCode 前端进阶训练营

互助系统软件开发,互助app开发

luluhulian

您的《操作系统线程模型总结》请查收。

后台技术汇

28天写作 2月春节不断更

🌏 超详细 DNS 协议解析

飞天小牛肉

Java 程序员 面试 计算机网络 2月春节不断更

太傻了!下次二面再回答不好“秒杀系统“设计原理,我就捶死自己

Crud的程序员

Java 程序员 架构

OpenYurt:延伸原生 Kubernetes 到边缘场景下的落地实践

阿里巴巴云原生

人工智能 容器 运维 云原生 k8s

基于SpringBoot的微服务架构与K8S容器部署实践

云流

Java 架构 微服务

区块链知识产权保护解决方案,区块链存证解决方案

135深圳3055源中瑞8032

今年我读了四个开源项目的源码,来分享下心得

yes的练级攻略

源码 面试 后端

如何从0到1构建一个稳定、高性能的Redis集群?(附16张图解)

Kaito

redis 架构 高性能

【春节不远行,云上过大年】来华为云社区,接任务领新年红包啦···

华为云开发者社区

华为云

短信验证码被刷怎么办?java 短信验证码防刷策略分析

香芋味的猫丶

黑客 短信防刷 短信验证码 短信防轰炸 短信防火墙

2021年 区块链最火的app爱打卡

v16629866266

源中瑞智慧社区解决方案---助推平安小区建设

135深圳3055源中瑞8032

图扑物联助力打造现代化智能港口

一只数据鲸鱼

物联网 工业4.0 组态软件 智慧港口

面试加分项!零基础如何成为高级Android开发,先收藏了

欢喜学安卓

android 程序员 面试 移动开发

徒手撸一个Spring Boot中的starter

田维常

springboot

PM必备自我管理工具整理

做人没有梦想和咸鱼有什么区别

项目管理 PM

淘宝的商品中心和类目体系是怎么设计的

邴越

阿里 模型 电商 架构· 业务

一寸宕机一寸血,十万容器十万兵|Win10/Mac系统下基于Kubernetes(k8s)搭建Gunicorn+Flask高可用Web集群

刘悦的技术博客

flask k8s kubectl Docker Desktop gunicorn

GrowingIO SaaS 产品 CI/CD 实践 (一)

GrowingIO技术专栏

ci SaaS CD

原来这就是大厂的MySQL主从复制、读写分离及高可用方案!

云流

MySQL 数据库 架构

开放下载!解锁 Serverless 从入门到实战大“橙”就

阿里巴巴云原生

云计算 Linux Serverless 开发者 云原生

2021全新iOS学习方向

ios 逆向

《iOS面试简历技巧解析》

ios 面试

阿里大佬手码的SpringCloud+Alibaba笔记开源了,堪称保姆式教学

Crud的程序员

spring 程序员 架构

阿里巴巴提出基于异构内容流的动态排序模型,提升用户点击和购买率-InfoQ