[公式] 表示状态值函数：在当前状态s下使用策略 [公式] ，期望获得的累计奖赏。比如上图游戏中左图当前还有很多怪可以打，期望奖赏就会很高，而右图只剩很少的怪可以打，期望奖赏就比较低。

那么怎么估计[公式]的值呢？第一种方式是MC方法：

第二种方法是基于TD的方法：

MC和TD的差别是什么呢？MC方法的缺点是方差较大，因为每个情节的差别可能会很大，有时候游戏玩的好，有时候玩的不好。所以累计奖赏 [公式] 会有很大的方差。

而TD方法预估V值的时候，只是用了一个时刻的奖赏r，方差较小，但是也用到了下一个时间的 [公式] 的值，该值在训练的一开始可能存在估计不准确的问题。实际中，MC用的较少。

上面讨论的是V值，和动作无关，下面开始介绍Q值：

当action的数量特别大时，应该采取第一种方法，即输入状态s和动作a，输出对应的Q值。

上图最左边一张图表示，当前状态下采取每个动作的Q值差不多，因为这个时候采取上移、下移或者不动都不太会影响能否接住回来的球。而左二表示当前状态下上移才能得到较大的奖赏值，因此此时下移或者不动可能就来不及接住球了。

[公式] ’是根据Q值来决定的：当前状态下最大Q值对应的动作。另外，该方法不适合联系动作的情景。因为有argmax操作。

上面一个投影片是对： [公式] 的证明。

上面介绍了Target Network的技巧。Target 网络一开始的权重和主网络是一样，每隔N步，再将主网络的权重赋值给target网络，这样target网络在一段时间内输出是固定的，增加了训练的稳定性。（因为实际上这就是个回归问题，回归的target值必须在一段时间内保持固定）

介绍了动作探索的必要性。

replay buffer中存了很多个样本transition序列，这些训练样本不要求来自于同一个策略 [公式] 产生，而当前的Q值则是依赖于当前的策略 [公式] 的，因此是属于off-policy。另外replay buffer打乱了样本之间的顺序，保证了训练的稳定性（因为深度神经网络的训练需要训练样本之间是无关联的）。

参考文献：

https://www.bilibili.com/video/av24

本文转载自Alex-zhai知乎账号。

原文链接：https://zhuanlan.zhihu.com/p/72954432

创作场景

Deep Q