本文整理于datawhalechina.github.io的强化学习教程

0x01 intro

在 Q-learning 中，我们学习的是一个“评论函数” $Q^\pi(s, a)$ ，通过其函数值判断当前状态 $s$ 下采取动作 $a$ 好不好。

这个评论函数的输出值取决于agent的策略 $\pi$ ，即我们只能根据agent的具体策略才能判断他这个动作到底是好还是不好。

下面，为方便起见，我们将 $Q^\pi(s, a)$ 简记为 $Q (s, a)$ 。

Q表只适用于状态值离散的情况和状态值不太大的情况。在 Q-learning 中，我们使用表格来存储每个状态 $s$ 下采取动作 $a$ 获得的奖励，即状态-动作值函数 $Q (s, a)$ 。然而，由于计算机内存的限制，这种方法无法用在状态量/动作量巨大甚至是连续的任务中。

此时，我们使用神经网络对Q函数做一个近似，即使用DQN。近似网络的输入输出有两种处理方法：

输入状态 $s$ ，输出是每一个动作的得分，即每一个动作的Q值。
输入状态 $s$ 和动作 $a$ ，输出Q值。

注意，以上我们假定策略 $\pi$ 是给定的，比如在每个状态 $s$ 下无脑选择Q值最大的 $a$ 。

0x02 MC和TD

MC
在初等概率论里，Monte-Calo方法通过进行大量重复实验，用频率近似概率来求解我们所需的概率分布。典型的例子是蒲丰投针问题。

在给定策略 $\pi$ 的情况下，我们为了估计 $Q^\pi(s, a)$ ，可以这么做：

在状态 $s$ ，我们选取动作 $a$ ；
在动作 $a$ 执行完成之后，让agent根据 $\pi$ 来决定接下来怎么走，直到回合结束或者满足某些截止条件；
重复2多次，获得多个状态-动作序列，求出每一个序列每一步reward的折扣和，称为return，将这些return平均一下就可以作为 $Q^\pi(s, a)$ 的估计；
用平均后的return和 $s, a$ 放到网络里做一做反向传播，训练网络；
对于0x01中所述的第一种网络而言，我们对每个 $a$ 都做一次1-4所述的采样，然后套个交叉熵，一块更新神经网络的值；对于第二种网络而言，只需要对指定的a做一次步骤1-4即可。

MC的做法有两个缺点。一个是采样得到的Q值方差很大，因为游戏的每一步都有不确定性，而且MC可能会走很多步才能结束，因此每一次采样的Q值可能很不相同；另一个是MC必须等到一个回合结束才可以开启下一个回合或者更新网络，太慢了。

TD
Temporal-Difference，又称时序差分。下图是DQN的原理图，我们将直接以此图为例来理解TD的过程。
在这里插入图片描述
上图中，网络 $Q^\pi$ 就是我们前面说的对Q值做近似的网络。我们以0x01中所说的第二种网络作说明。

在 $t$ 时刻，状态 $s_t$ ，动作强制指定为 $a_t$ ，输出（可能没训练好的）Q值 $Q(s_t, a_t)$ ，然后状态跳到 $s_{t+1}$ 。在 $s_{t+1}$ 步，我们根据 $\pi$ 选择策略，获得Q值 $Q(s_{t+1}, \pi(s_{t+1}))$ 。

此时，根据 $Q^\pi(s, a)$ 的定义，
$Q^\pi(s_t, a_t) = r + \gamma Q^\pi(s_{t+1}, \pi(s_{t+1}))$

于是我们想要 $Q^\pi(s_t, a_t)$ 和 $\gamma Q^\pi(s_{t+1}, \pi(s_{t+1}))$ 差一个常数 $r$ 。

有了这个差值，按理说我们就可以作反向传播了。但是这两个网络都是没有训练好的，而且反向传播的话，怎么传播呢？

这个事会在0x04进行说明。

0x03 策略改进

这一部分，我们将说明，策略 $\pi(s) = \argmax_a Q(s,a)$ ，即每一步无脑选择Q值最大的a的策略，是永远的神。

它的大原则是这样，假设有一个初始的 $\pi$ ，也许一开始很烂，随机的也没有关系。这个 $\pi$ 跟环境互动，会收集数据。接下来用TD或者MC学习一下 $\pi$ 的 Q 值，即：学习一下 $\pi$ 在某一个状态强制采取某一个动作、接下来用 $\pi$ 这个策略会得到的期望奖励。学习了一下之后，策略 $\pi'(s) = \argmax_a Q(s,a)$ 一定会比原来的策略 $\pi$ 还要好。

综上，假设你有一个 Q-function 和某一个策略 $\pi$ ，你根据策略 $\pi$ 学习出策略 $\pi$ 的 Q-function，接下来保证你可以找到一个新的策略 $\pi'$ ，它一定会比 $\pi$ 还要好，然后你用 $\pi'$ 取代 $\pi$ ，再去找它的 Q-function，得到新的以后，再去找一个更好的策略。这样一直循环下去，策略就会越来越好。

什么叫好？我们定义在状态 $s$ 下回合开始，一直用 $\pi$ 作决策的期望回报return（reward的加权和）为 $V^\pi(s)$ 。于是， $\pi$ 比 $\pi'$ “好”，指对任意的状态s， $V^\pi(s) \geq V^{\pi'}(s)$ 。

为什么用 $Q^\pi(s, a)$ 和argmax搞出来的 $\pi'$ 就比原来的 $\pi$ 好呢？

由定义 $V^\pi(s) = Q^\pi(s, \pi(s))$

$Q^\pi(s, \pi(s)) \leq \max_a Q^\pi(s,a)$

但是 $\pi'(s) = \argmax_a Q(s,a)$ ，所以

$V^\pi(s) = Q^\pi(s, \pi(s)) \leq Q^\pi(s, \pi'(s))$

这意味着，我变动当前一步的策略（在当前状态使用策略 $\pi'$ ，之后使用 $\pi$ ）的效果要比不变动的效果好。下面，我们将证明，我步步都使用 $\pi'$ 效果更好。

我懒得打字了，直接上图吧…

在这里插入图片描述总结一下，这一块内容告诉了我们每一步无脑选择最大Q值对应的动作a的合理性。

0x04 DQN

在这里插入图片描述

0x02中我们说过这里讲一下怎么对TD做训练。

tip：Target Network
这里，我们会把图中标注了Target Network的那个网络固定住，然后使用反向传播更新左边的网络，等到左边的网络更新得差不多了（满足一定的条件）之后，再把左边网络的参数复制粘贴到右边的Target Network，然后再重复这个训练、粘贴的过程…

它们两个网络不要一起动，它们两个一起动的话，结果会很容易坏掉。

这里，左边的网络又叫Q-estimation网络，右面的叫Q-target网络。

tip：Exploration
假如我没有exploration，而是无脑选最大Q值对应的a的话，我们可以考虑这么一个例子：

我去一个餐厅吃饭，今天点了某一个东西以后，假如点了椒麻鸡，我觉得吼啊。那么接下来我每次去就都会点椒麻鸡，再也不会点别的东西了，那我就不知道别的东西是不是会比椒麻鸡好吃。

所以我们需要在里面引入随机因素，让模型看到更多的选择。

有两个方法解这个问题：

一个是 Epsilon Greedy：很大概率取Q值最大的那个选项，但是也存在瞎选的概率；
另一个是Boltzmann Exploration，这个方法就比较像是策略梯度。在策略梯度里面，网络的输出是一个期望的动作空间上面的一个的概率分布，再根据概率分布去做采样。那其实也可以根据 Q 值去定一个概率分布，假设某一个动作的 Q 值越大，代表它越好，我们采取这个动作的机率就越高。但是某一个动作的 Q 值小，不代表我们不能尝试。

tip：Experience Replay

因为TD并不需要等到回合结束才能结算，可以每一步进行结算，所以我们可以保存每一步的信息。每一步的信息可以被放在buffer中，记录了（当前状态，当前动作，动作的奖励，下一个状态）。

有了这个 buffer 以后，我们会迭代地去训练这个 Q-function，在每次迭代里面，从 buffer 里面随机挑一个 batch 出来，和一般的网络一样去训练。

下面是DQN的原理示意图：
在这里插入图片描述注意，这里面，我们的策略 $\pi$ 始终是：无脑选择有最大Q值的动作。

0x05 DoubleDQN

我们的策略 $\pi$ 是无脑选择最大的策略。因为我们在更新Q网络的时候，总是会选择最大Q值的策略，因此，一旦有Q值被高估的情况出现，则我们总会选择被高估的Q值。

我们在DQN中，选择用target network来找Q值最大的a，并且用target network $Q^{'}$ 来给出对应的Q值；但是在 Double DQN 里面，我们用更新参数的estimate network去选动作，然后拿target network（固定住不动的网络）去算值。

这么做的原因如下：

假设第一个 Q-function 高估了它现在选出来的动作 a，只要第二个 Q-function $Q^{'}$ 没有高估这个动作 a 的值，那你算出来的就还是正常的值。
假设 $Q^{'}$ 高估了某一个动作的值，那也没差，因为只要前面这个 Q 不要选那个动作出来就没事了

这个就是 Double DQN 神奇的地方。

强化学习笔记：DQN和DDQN

0x01 intro

0x02 MC和TD

0x03 策略改进

0x04 DQN

0x05 DoubleDQN

猜你喜欢