背景与介绍

大都数传统的推荐系统（协同过滤、基于内容的推荐、learning-to-rank）只是将推荐过程当做一个静态的过程，并且在一段时间内是根据固定的模型来进行推荐。当用户的兴趣发生动态变化时，这些传统方法推荐的内容就不能捕捉到用户兴趣的实时变化。因此本文提出了一种DRL算法，可通过推荐系统和用户不断交互来持续提升推荐质量。

在电商领域，用户有正反馈和负反馈（比如用户点击了商品为正反馈，用户对商品没有任何操作称为负反馈），并且负反馈的数量远远大于正反馈。因此正反馈给模型带来的影响经常被负反馈给“冲刷”掉。本文提出的deep recommender system(DEERS)的算法框架可将正、负反馈同时融入到模型中。

文中将了将RL引入到推荐系统中的两个优势：1. 通过用户与推荐系统的不断交互，可持续更新try-and-error策略，直到模型收敛到最优；2. 在当前状态动作对下，通过带延迟奖赏构造的value值可不断训练推荐模型。对于一个用户来讲，其最优的策略就是最大化该用户的期望累计奖赏。因此推荐系统通过很小的即时奖赏就可筛选出商品。

问题建模

环境：用户 agent：推荐系统

MDP中各元素的定义为：

状态空间S：用户之前的浏览历史，包括点击／购买过的和略过的，二者分开进行处理。同时，物品是按照先后顺序进行排序的。
动作空间A：一次只给用户推荐一个物品，那么推荐的物品即动作。
即时奖励R：在给用户推荐一个物品后，用户可以选择忽略、点击甚至购买该物品，根据用户的行为将给出不同的奖励。
状态转移概率P：状态的转移主要根据推荐的物品和用户的反馈来决定的。
折扣因子r：对未来收益进行一定的折扣

模型框架

基本的DQN模型，只考虑正向的反馈
状态s: [公式]，用户之前点击或购买过的N个物品同时按照时间先后进行排序

s转移到s’：假设当前的推荐物品a，用户若点击或购买，则 [公式] ，若用户略过，则s’=s 。

需要注意的是，仅仅使用离散的indexes去表示items是表达力不够的，比如相似的商品仅从index上也是无法推断的。一个常见的做法是，在表示item的时候加入额外的信息，比如brand，price和月销量等等。本文则是采用了另外一种方法，将用户的浏览历史当做一个session下的序列，然后通过word embedding技术去训练得到每个item的embedding表示（有点像Airbnb的做法）。

训练得到item的embedding之后，将状态和动作的embedding表示concat起来作为模型的输入，输出为该状态动作对的Q值。更新方法和传统的DQN是一样的。这里就不详细介绍了

DEERS模型，同时考虑正向和负向反馈

对于基本的DQN模型来说，一个明显的缺点是，当推荐的物品被用户忽略时，状态是不会发生变化的。因此DEERS模型在状态中也考虑被用户忽略过的商品。

当前状态s: 当前状态s包含两部分s=(s+,s-)，其中s+={i1,i2,…,iN}，表示用户之前点击或购买过的N个物品，s-={j1,j2,…,jN}，表示用户之前略过的N个物品。同时物品按照时间先后进行排序。
s转移到s’：假设当前的推荐物品a，用户若点击或购买，则s’+={i2,i3,…,iN,a}，若用户略过，则s’-={j2,j3,…,jN,a} 。那么，s’ = (s’+,s’-)。

如上图，DEERS模型使用GRU来抽取s+,s-两个序列的表征。

另外，DEERS模型还考虑了商品之间的偏序关系。对于一个商品a，偏序对中的另一个商品称为 [公式] ，但只有满足三个条件，才可以称为[公式]。首先，[公式]必须与a是同一类别的商品；其次，用户对于[公式]和a的反馈是不同的；最后，[公式]与a的推荐时间要相近。

若商品a能够找到有偏序关系的物品[公式] ，此时不仅需要预估的Q值和实际的Q值相近，同时也需要有偏序关系的两个物品的Q值差距越大越好，因此模型的损失函数变为：

其中，目标Q值y的计算为：

整个算法的流程为：

参考文献：

https://arxiv.org/pdf/1802.06501.pdf
https://www.jianshu.com/p/fae3736e0428

本文转载自Alex-zhai知乎账号。

原文链接：https://zhuanlan.zhihu.com/p/77224966

创作场景

京东：利用 DRL 算法进行带负反馈的商品推荐