背景和介绍

在线个性化新闻推荐已经成为一个富有挑战性的问题，尽管一些传统的在线推荐模型可初步解决新闻推荐中的动态变化性问题。这种动态变化性体现于：首先新闻具有很强的时效性，其次是用户对于新闻阅读的兴趣是不断变化的。但是这些模型还是有三个缺陷：

难以处理新闻推荐的动态变化。因此模型不仅要考虑用户对当前推荐的反馈，还要考虑推荐对用户长期的影响。就好比买股票，不能只考虑眼前的收益，而是要考虑未来的预期收益。
通常只考虑用户的点击／未点击或者用户的评分作为反馈，然而，用户隔多久会再次使用推荐服务也能在一定程度上反映用户对推荐结果的满意度。
倾向于推荐用户重复或相似内容的东西，这也许会降低用户在同一个主题上的兴趣度。因此模型需要进行exploration。传统方法 e-greedy 策略或者 Upper Confidence Bound (UCB) 都会在短期对推荐系统的效果造成一定的影响（因为 e-greedy和UCB都会随机选取一些用户可能根本不敢兴趣的文章来推荐），需要更有效的exploration策略。
因此本文提出了一种基于Deep Q-learning的推荐框架，可明确地对用户未来的预期奖赏进行建模。针对上述三个问题，本文提出了三个对应的解决方案：
使用Deep Q-learning（DQN）网络来有效建模新闻推荐的动态变化属性，DQN可以将短期回报和长期回报进行有效的模拟。
将用户活跃度（activeness score）作为一种新的反馈信息。
使用Dueling Bandit Gradient Descent方法来进行有效的动作探索，同时保证了推荐结果的多样性和精准性。

系统整体框架

用户和新闻池作为环境，推荐算法作为Agent，状态定义为用户的特征表示，动作定义为推荐新闻列表的特征表示。每个时刻当一个用户请求新闻，状态和一系列动作的表征传递给Agent。Agent会选择当前策略下最好的动作（对该用户的一个推荐列表）并且将用户的反馈当做reward（是否点击+用户活跃度）。所有的推荐和反馈log都会被存储到Memory中，每隔一个小时，Agent都会去使用memory中的log去更新推荐算法。本文的贡献主要有：
1）提出了一种强化学习的框架用于在线新闻的个性化推荐，并且可扩展到其它领域。
2）使用用户活跃度作为一种新的反馈，来提高推荐的准确性
3）使用了一种更加高效的探索算法：Dueling Bandit Gradient Descent，防止由于动作的探索而导致推荐精准性的下降。
4）模型可以进行在线学习和更新，在离线和在线实验上的表现都超过了传统的算法。

问题定义

符合定义

模型架构

模型架构如下：

模型由离线和在线部分组成。离线阶段：首先从新闻和用户中抽取四种类型的features，然后利用多层的DQN网络来预测奖赏（用户点击+用户活跃度）。其中DQN网络是通过离线的用户新闻点击logs来训练。在线阶段：推荐agent G通过与用户的交互来更新网络。更新的方法是：

PUSH：在每个时刻，用户发送请求时，agent根据当前的state产生top-k篇新闻推荐列表给用户，这个推荐结果是exploitation和exploration的结合。
FEEDBACK：通过用户对推荐新闻的点击行为得到反馈结果。
MINOR UPDATE：在每个时间点过后，根据用户的信息（state）和推荐的新闻列表（action）及得到的反馈（reward），agent会评估exploitation network Q 和 exploration network Q ̃ 的表现，如果exploitation network Q效果更好，则模型保持不动，如果 exploration network Q ̃ 的表现更好，exploitation network Q的参数将会向exploration network Q ̃变化。
MAJOR UPDATE：在一段时间过后，根据DQN的经验池中存放的历史经验，对exploitation network Q 模型参数进行更新。
不断重复上述4个步骤。

输入特征设计：包括4部分

新闻的特征：包括题目，作者，排名，类别等等，共417维
用户的特征：包括用户在1小时，6小时，24小时，1周，1年内点击过的新闻的特征表示，共413*5=2065维
新闻和用户的交互特征：25维。
上下文特征：32维的上下文信息，如时间，周几，新闻的新鲜程度等。
在这四组特征中，用户特征和上下文特征用于表示当前的state，新闻特征和交互特征用于表示当前的一个action。

Deep Reinforcement Recommendation

用了Dueling-Double-DQN（两个trick，一个是dueling network，一个是DDQN），将用户特征和上下文特征用于表示当前的state，新闻特征和交互特征用语表示当前的一个action，经过模型可以输出当前状态state采取这个action的预测Q值。Q值包含两个部分，分别是立即奖励和带折扣的未来奖励：

其中立即奖励表示用户是否点击推荐的新闻和用户活跃度奖励，未来奖赏表示agent对未来奖励的一个projection。使用DDQN算法：

加上dueling 结构（将Q值分成v值和A值两部分），整体的模型图为：

为什么要采取上面的dueling 结构呢？因为大多数时候奖赏只是和用户本身的特征和context的特征有关（比如该用户是否活跃，该用户今天是否已经阅读足够多的文章）。

奖赏函数设置

用户活跃度可理解为使用app的频率，好的推荐结果可以增加用户使用该app的频率，因此可以作为一个反馈指标。所以立即奖励变为用户是否点击推荐的新闻+用户活跃度奖励。

动作探索

提出了一种被称为Dueling Bandit Gradient Descent 的探索方法

共有两个网络，一个DQN网络，一个是exploration network Q ̃网络，探索网络的参数是由当前的DQN网络参数基础上加入一定的噪声产生的：

当一个用户请求到来时，两个网络都去产生top-K的新闻推荐列表，然后将二个网络产生的新闻列表进行一定程度的混合得到新的推荐列表，然后PUSH给用户，并得到用户的反馈。如果exploration network Q ̃的效果好的话，那么当前DQN网络的参数就向着exploration network Q ̃的参数方向进行更新，具体公式如下：

否则，当前DQN网络参数不变。

实验结果

选取了五个基准模型：LR，FM，Wide&Deep，LinUCB，HLinUCB。同时根据组件的不同(U代表用户活跃度，EG代表e-greedy，DBGD代表Dueling Bandit Gradient Descent）强化学习模型又分为以下几种：

DN：未考虑未来收益的Double-DQN
DDQN：考虑未来收益的Double-DQN
DDON+U：考虑未来收益，同时考虑用户活跃度的Double-DQN
DDQN+U+EG：采用e-greedy作为探索策略的Double-DQN
DDQN+U+DBGD：采用DBGD作为探索模型的Double-DQN

离线实验结果：

在线实验结果：

推荐多样性比较：

多样性采用的指标是ILS，用来表示推荐列表中item的相似性，如果这个相似性较低，可以认为推荐结果的多样性较好。

总结：

有个疑问，推荐出的是商品的一个列表，那么动作空间应该很大很大，而DQN只适用于离散动作空间，怎么处理该问题？？
冷启动问题，DQN算法一开始推荐出的内容肯定很差，这时候应该需要离线训练一个预训练模型来保证算法一开始的推荐精确性。那么这里是使用传统的CTR预估模型还是直接使用拥有离线训练数据的RL模型来当做预训练的模型呢？
是否可以将DQN模型替换成DDPG模型？
参考文献：

http://www.personal.psu.edu/~gjz5038/paper/www2018_reinforceRec/www2018_reinforceRec.pdf
https://www.jianshu.com/p/c0384b213

本文转载自Alex-zhai知乎账号。

原文链接：https://zhuanlan.zhihu.com/p/72801609

创作场景

DRN: 将深度强化学习应用到新闻推荐