对中国开发者最具吸引力的科技企业有哪些?快来为你 pick 的企业投票! 了解详情
写点什么

阿里巴巴提出基于异构内容流的动态排序模型,提升用户点击和购买率

2018 年 7 月 09 日

题目(中英文):一种端到端的模型:基于异构内容流的动态排序 / An End-to-end Model of Predicting Diverse Ranking On Heterogeneous Feeds

主要作者(中英文):高子喆, 高正, 黄恒, 蒋卓人, 严玉良 / Zizhe Gao,Zheng Gao,Heng Huang,Zhuoren Jiang,Yuliang Yan

研究背景:

搜索引擎在电商领域扮演着极其重要的作用,其可以很好的引导用户的潜在购买行为。传统电商搜索引擎通常指商品搜索引擎,用户输入一个 query,返回一个商品列表。然而,随着自媒体的发展,越来越多的用户更愿意分享自己的购物体验,他们以文章、评价和视频等形式将自己的观点展示出来。在这篇文章中,这些统称为内容流。为了给用户提供更多的购物帮助,内容搜索引擎应运而生。在用户搜索商品的时候,给用户推荐高质量的内容流,帮助用户选择自己中意的以及用户可能喜欢的商品。

目前,对于异构数据的排序还存在很多的挑战。首先,商品搜索引擎和内容搜索引擎所提供的跨领域知识要被充分利用,使用户在商品搜索引擎中的行为偏好应用到内容搜索引擎中。其次,现有的算法需要支持多媒体内容的排序。

本文中,我们的目标是解决商品搜索引擎和内容搜索引擎中异构数据排序的问题,给用户推荐丰富的个性化的内容流。我们把算法分成了两部分:1)异构内容流类型排序,即决定每个坑位展示何种类型的内容流,文章、视频还是商品列表;2)同构的内容流内容排序,第二个步骤使用广为人知的DSSM 模型,在这个内容流类型下,对内容流的内容进行排序,选择相似度最高的内容插入。本文主要聚焦在第一个步骤。

所提出的算法:

本文提出两种算法用于内容流类型的排序,独立多臂老虎机算法和个性化马尔科夫深度神经网络算法。

在独立多臂老虎机算法中,我们需要计算一个比例\(\theta \),由ipv 和pv 计算而来,如果\(\theta \) 更高,表示当用户在搜索列表中看到这个内容流的时候,更有可能点击。对于每一个搜索坑位,我们先会计算一个\(\theta \) 的先验分布,这里我们使用Beta 分布\(\theta _i\sim B(\alpha _i,\beta _i)\), 其中i 表示post, list, video. \(\alpha _i\) 代表类型i 的历史ipv 点击数据,\(\beta _i\) 表示历史浏览数据。\(B(\alpha _i,\beta _i)\) 的期望是\(\frac{\alpha _i}{\alpha _i+\beta _i}\),后验概率分布通过一个实时的流数据任务来更新。表示为如下的概率公式:

通过这种方式,所有坑位的内容流类型都是独立的,伪代码如下:

有依赖的异构数据流类型选择由三种因素决定:用户,query 和前一个坑位类型。首先,在同一个query 下,用户可以表示出不同的偏好。比如用户搜索“连衣裙”,某个用户可能更偏好介绍的文章,另一个用户可能会更喜欢视频的介绍。而且,没有用户喜欢单一的类型展示,或多或少都喜欢多元化的内容流类型的排列。针对同一个query,应该给不同的用户展示不同的排序结果。我们提出的个性化马尔科夫深度神经网络算法包含两个步骤,包括对用户和query 的表示任务学习和坑位类型的预测学习。

用户和query 的低维表示 我们构建了一个graph,包含用户,query 和内容。使用node2vec 学习用户和query 的embedding,如下图:

图中的中间部分是训练节点的embedding 表示。输入层是节点的独热编码。权重矩阵W 是所有节点的embedding,其将节点独热编码映射到一个D 维的空间中。

坑位类型预测 我们的目标函数定义为

其中X 表示输入第i 个坑位的特征,为了简化我们pMDNN 模型并且加速运行的速度,我们只使用跟当前预测的坑位前一个坑位的信息。然而这带来了一个问题,如何预测第一个坑位的类型,这里我们使用到了跨领域知识,我们从用户最近在商品搜索引擎中浏览的宝贝信息中抽取将其映射为内容搜索坑位特征,使其满足当前模型的输入要求。我们的模型输入层为用户的embedding,query embedding 和前一个坑位的embedding。可以表示为

三个全连接层接入输入层中。每一层使用一个线性分类器和交叉熵作为loss function。激活函数选择Relu,输出层应用Softmax 为激活函数。

实验结果:

我们将提出的模型部署到A/B 测试分桶环境中,选择了5 个主要的指标来对比两个模型iMAB 和pMDNN. pv 代表展示内容的个数;pv click 表示展示的内容多少被点击;uv 是多少个用户使用了内容搜索引擎,uv click 表示多少用户点击了内容流;至于uv ctr,表示用户是否点击内容流的比率。

下表展示了实验结果,其中pMDNN 的实验结果优于iMAB。尤其是uv click 和uv ctr,这对于我们的场景非常重要,因为uv click 的增长表示更多的用户倾向于内容搜索引擎因为其能帮助他们更好的购物。同时,uv ctr 的增长展示出使用内容搜索引擎的用户对我们推荐的内容流是认可的。至于pv click 的提高也代表了我们提出的模型更加的符合用户的个性化需求。

基于pv click 和uv ctr,我们可以认为pMDNN 应用了跨领域知识并且全局优化多坑位类型确实要优于坑位独立的iMAB.

参考文献:

[1] Róbert Busa-Fekete and Eyke Hüllermeier. A survey of preference-based online learning with bandit algorithms.
[2] Ali Mamdouh Elkahky, Yang Song, and Xiaodong He. 2015. A multi-view deep learning approach for cross domain user modeling in recommendation systems. In Proceedings of the 24th International Conference on World Wide Web. International World Wide Web Conferences Steering Committee, 278–288.

2018 年 7 月 09 日 16:111481

评论

发布
暂无评论
发现更多内容

转型项目经理?

escray

面经 面试经历 101次面试 七日更 十日谈

LeetCode题解:92. 反转链表 II,迭代,JavaScript,详细注释

Lee Chen

算法 LeetCode 前端进阶训练营

假冒、诈骗、隐私安全,如何应对数字人民币的风险与挑战?

CECBC区块链专委会

货币

让你的简历不落窠臼,精雕细镂写一份真正的技术简历(Python向)

刘悦的技术博客

Python 面试 简历优化 简历

规模化敏捷框架何从入手?这篇文章把SAFe讲透了!

华为云开发者社区

敏捷开发 框架 safe

如何成为架构师?

xcbeyond

个人成长 架构师 七日更

职业规划

HQ数字卡

职业规划 七日更

用大白话给你解释Zookeeper的选举机制

爱笑的架构师

zookeeper ZooKeeper原理 七日更

号称大厂面试官的克星,“神仙版”Java面试宝典,“真”吊打大厂面试官

Java架构之路

Java 程序员 架构 面试 编程语言

关于昆明市政协、市统战部、民革昆明市委赴云南坤艮盈科技有限公司(商务部CECBC区块链专委会秘书处云南办事处)调研指导工作

CECBC区块链专委会

云南发展

使用 Helmfile 解放你的 Helm Chart

郭旭东

云原生 Helm

Ribbon使用及其内核原理剖析

程序员Fox

FastAI:滴普技术荟:基于深度学习的云边一体化OLED屏缺陷自动光学检测技术

滴普科技2048实验室

学习 缺陷检测 云边一体 自动光学检测

低代码与零代码工具的这些特征,弥补了所有人和IT之间的差距!

低代码指南

程序员 互联网 开发者 软件开发 开发工具

[git使用技巧] git提交忽略不必要的文件或文件夹

xcbeyond

git 七日更

区块链商城APP系统开发|区块链商城软件开发

开發I852946OIIO

系统开发

吊!设计模式全解:6大设计原则+23种设计模式+设计模式PK+设计模式混编

Java架构之路

Java 程序员 架构 面试 编程语言

远见而明察近观若明火|Centos7.6环境基于Prometheus和Grafana结合钉钉机器人打造全时监控(预警)Docker容器服务系统

刘悦的技术博客

Docker 高可用 监控 Prometheus 预警

彩色的线,数据的诗,你好——贵州鲲鹏!

脑极体

SQL优化最干货总结-MySQL「2020年终总结版」

Java架构师迁哥

Java 细粒度锁续篇

rookiedev

Java 多线程 加锁

JVM 的运行时数据区域分布

rookiedev

Java JVM

数据为墨,智能作笔:画一卷新姑苏繁华图

脑极体

微服务架构太难了?那你可能还没掌握SpringBoot+SpringCloud+Docker+RabbitMQ

Java架构之路

Java 程序员 架构 面试 编程语言

腾讯T4架构师:刷3遍以下面试题,你也能从小公司成功跳到大厂

Java架构之路

Java 程序员 架构 面试 编程语言

FastAI:滴普技术荟:基于机器视觉的典型多目标追踪算法应用实践

滴普科技2048实验室

目标追踪 目标检测 追踪算法

FastAI:滴普技术荟:某工业产品内部结构尺寸图像测量和缺陷检测分析

滴普科技2048实验室

目标检测 图像处理 缺陷检测 AI测量 图像检测

“社恐”独处好去处:无人自习室,一个人的“世外桃源”

IoT云工坊

物联网 无人自习室 智能门禁 智能灯控 线上预约

区块链矿机挖矿系统开发软件技术

系统开发咨询:I76-883I-5I52 邓森

区块链农场游戏系统开发软件定制

系统开发咨询:I76-883I-5I52 邓森

比特币的安全性到底有多高?

CECBC区块链专委会

比特币

滴滴 Logi 日志管理与分析平台

滴滴 Logi 日志管理与分析平台

阿里巴巴提出基于异构内容流的动态排序模型,提升用户点击和购买率-InfoQ