京东：利用DRL算法进行带负反馈的商品推荐_语言 & 开发_Alex-zhai_InfoQ精选文章

京东：利用DRL算法进行带负反馈的商品推荐

背景与介绍

大都数传统的推荐系统（协同过滤、基于内容的推荐、learning-to-rank）只是将推荐过程当做一个静态的过程，并且在一段时间内是根据固定的模型来进行推荐。当用户的兴趣发生动态变化时，这些传统方法推荐的内容就不能捕捉到用户兴趣的实时变化。因此本文提出了一种 DRL 算法，可通过推荐系统和用户不断交互来持续提升推荐质量。

在电商领域，用户有正反馈和负反馈（比如用户点击了商品为正反馈，用户对商品没有任何操作称为负反馈），并且负反馈的数量远远大于正反馈。因此正反馈给模型带来的影响经常被负反馈给“冲刷”掉。本文提出的 deep recommender system(DEERS)的算法框架可将正、负反馈同时融入到模型中。

文中将了将 RL 引入到推荐系统中的两个优势：1. 通过用户与推荐系统的不断交互，可持续更新 try-and-error 策略，直到模型收敛到最优；2. 在当前状态动作对下，通过带延迟奖赏构造的 value 值可不断训练推荐模型。对于一个用户来讲，其最优的策略就是最大化该用户的期望累计奖赏。因此推荐系统通过很小的即时奖赏就可筛选出商品。

问题建模

环境：用户 agent：推荐系统

MDP 中各元素的定义为：

状态空间 S：用户之前的浏览历史，包括点击／购买过的和略过的，二者分开进行处理。同时，物品是按照先后顺序进行排序的。

动作空间 A：一次只给用户推荐一个物品，那么推荐的物品即动作。

即时奖励 R：在给用户推荐一个物品后，用户可以选择忽略、点击甚至购买该物品，根据用户的行为将给出不同的奖励。

状态转移概率 P：状态的转移主要根据推荐的物品和用户的反馈来决定的。

折扣因子 r：对未来收益进行一定的折扣

模型框架

基本的 DQN 模型，只考虑正向的反馈

状态 s: [公式]，用户之前点击或购买过的 N 个物品同时按照时间先后进行排序

s 转移到 s’：假设当前的推荐物品 a，用户若点击或购买，则 [公式] ，若用户略过，则 s’=s 。

需要注意的是，仅仅使用离散的 indexes 去表示 items 是表达力不够的，比如相似的商品仅从 index 上也是无法推断的。一个常见的做法是，在表示 item 的时候加入额外的信息，比如 brand，price 和月销量等等。本文则是采用了另外一种方法，将用户的浏览历史当做一个 session 下的序列，然后通过 word embedding 技术去训练得到每个 item 的 embedding 表示（有点像 Airbnb 的做法）。

训练得到 item 的 embedding 之后，将状态和动作的 embedding 表示 concat 起来作为模型的输入，输出为该状态动作对的 Q 值。更新方法和传统的 DQN 是一样的。这里就不详细介绍了

DEERS 模型，同时考虑正向和负向反馈

对于基本的 DQN 模型来说，一个明显的缺点是，当推荐的物品被用户忽略时，状态是不会发生变化的。因此 DEERS 模型在状态中也考虑被用户忽略过的商品。

当前状态 s: 当前状态 s 包含两部分 s=(s+,s-)，其中 s+={i1,i2,…,iN}，表示用户之前点击或购买过的 N 个物品，s-={j1,j2,…,jN}，表示用户之前略过的 N 个物品。同时物品按照时间先后进行排序。

s 转移到 s’：假设当前的推荐物品 a，用户若点击或购买，则 s’+={i2,i3,…,iN,a}，若用户略过，则 s’-={j2,j3,…,jN,a} 。那么，s’ = (s’+,s’-)。

如上图，DEERS 模型使用 GRU 来抽取 s+,s-两个序列的表征。

另外，DEERS 模型还考虑了商品之间的偏序关系。对于一个商品 a，偏序对中的另一个商品称为 [公式] ，但只有满足三个条件，才可以称为[公式]。首先，[公式]必须与 a 是同一类别的商品；其次，用户对于[公式]和 a 的反馈是不同的；最后，[公式]与 a 的推荐时间要相近。

若商品 a 能够找到有偏序关系的物品[公式] ，此时不仅需要预估的 Q 值和实际的 Q 值相近，同时也需要有偏序关系的两个物品的 Q 值差距越大越好，因此模型的损失函数变为：

其中，目标 Q 值 y 的计算为：

整个算法的流程为：

参考文献：

https://arxiv.org/pdf/1802.06501.pdf

https://www.jianshu.com/p/fae3736e0428

本文转载自 Alex-zhai 知乎账号。

原文链接：https://zhuanlan.zhihu.com/p/77224966

评论

发布

暂无评论

重装亮相！9 月 22 日平凯数据库 - TiDB 企业版全解读等你来！

数据库 TiDB 平凯星辰平凯数据库

好物周刊#2：AI 写作助手

软件网站项目插件资料

软件需求文档、设计文档、开发文档、运维文档大全

项目管理 #运维

项目流程管理处理推荐 OmniPlan Pro 4 最新激活中文

胖墩儿不胖y

Mac软件项目流程管理

供应链和物流的跨链代币开发数字货币开发

区块链软件开发推广运营

数字藏品开发 dapp开发区块链开发链游开发 NFT开发

乙烯裂解工艺可视化2D组态系统

2D3D前端可视化开发

物联网组态软件工业组态乙烯裂解工艺乙烯裂解组态图

在信创化的浪潮下，银行应该如何选择

信创信创生态

Puppeteer无头浏览器：开启自动化之门，掌握浏览器世界的无限可能

node.js puppeteer 截图

科兴未来 | 中国·仙居第六届全球医疗器械创业创新大赛

科兴未来News

您距离一个成熟安全的 DevOps 平台，只差一个迁移

DevOps gitlab 安全迁移 Github'

华为云CodeArts Check代码检查服务用户声音反馈集锦（6）

软件开发华为云代码检查

openEuler 亮相全球顶级开源盛会 OSSUMMIT 2023，持续推动智能化未来的实现

Linux 开源 openEuler 资讯

DAPP区块链公链代币智能合约质押挖矿系统开发

搜索技术领域的“奥林匹克”，飞桨支持“第二届百度搜索创新大赛”正式启动！

飞桨PaddlePaddle

百度飞桨 AI Studio

强大硬件+优化软件，英特尔锐炫助力玩家沉浸畅享《猛兽派对》

灞桥论“健” 共话康养灞桥康养论坛取得圆满成功

活动报名 | Modern Data Stack Meetup 北京首站启动！与三大开源社区共同探索现代数据栈的最佳实践

数据采集数据集成 Tapdata 现代数据栈云数仓

数智赋能，提质增效 | 用友流程制造行业解决方案全新发布！

openEuler与Linaro携手参加OSSUMMIT 2023

Linux 开源 openEuler 资讯

最佳实践：TiDB 业务写变慢分析处理

数据库最佳实践 TiDB

静态分析在DevSecOps中的应用

集成开发环境软件Eclipse与MyEclipse区别

小齐写代码

企业诊断屋：二手车交易平台APP如何用AB测试赋能业务

字节跳动数据平台

大数据 ab测试对比实验数字化增长企业号9月PK榜

亮相华为全联接大会，用友荣获“华为云技术领航最佳实践伙伴”奖项

喜讯！云起无垠获评软件供应链安全技能竞赛“团队优秀奖”