RL夏令营第二讲回顾--policy methods

policy methods

目标函数
Policy Approaches

目标函数

agent会选择一种policy来最大化下面三种可能的目标函数：

总奖励的期望
$J(\pi):=\mathbb{E}\left[\sum_{k=0}^{N} R\left(s_{k}, \pi\left(s_{k}\right)\right)\right]$
折扣总奖励的期望
$J(\pi):=\mathbb{E}\left[\sum_{k=0}^{\infty} \gamma^{k} R\left(s_{k}, \pi\left(s_{k}\right)\right)\right], \text { for } 0<\gamma<1$
平均奖励的MDP的期望
$J(\pi)=\lim _{K \rightarrow \infty} \mathbb{E}\left[\frac{1}{K+1} \sum_{k=0}^{K} R(s, \pi(s))\right]$
对于MDP问题两个核心问题是：

一个策略有多好？这就是policy evaluation
最优策略是什么？这就是policy optimisation

策略评价

值函数：从状态 $s_0$ 开始，在策略 $\pi$ 下的期望折扣奖励的函数。
$V^{\pi}(s):=\mathbb{E}\left[\sum_{k=0}^{\infty} \gamma^{k} R\left(s_{k}, \pi\left(s_{k}\right)\right) \mid s_{0}=s\right]$
对应的相应策略的动作价值函数为：
$Q^{\pi}(s):=R(s, \pi(s))+\mathbb{E}_{s^{\prime} \sim \operatorname{Pr}\left(s^{\prime} \mid s, \pi(s)\right)}\left[V^{\star}\left(s^{\prime}\right)\right]$

策略优化

最优值函数的公式如下：
$V^{\star}(s):=\max _{\pi} \mathbb{E}\left[\sum_{k=0}^{\infty} R\left(s_{k}, \pi\left(s_{k}\right)\right) \mid s_{0}=s\right]$
最优动作值函数的公式如下：
$Q^{\star}(s):=\max _{a} R(s, a)+\mathbb{E}_{s^{\prime} \sim \operatorname{Pr}\left(s^{\prime} \mid s, a\right)}\left[V^{\pi}\left(s^{\prime}\right)\right]$

贝尔曼方程：用来衡量一个policy的好坏程度

$\begin{aligned} V^{\pi}(s) &=\mathbb{E}\left[\gamma^{0} R\left(s_{0}, \pi\left(s_{0}\right)\right) \mid s_{0}=s\right]+\mathbb{E}\left[\sum_{k=1}^{\infty} \gamma^{k} R\left(s_{k}, \pi\left(s_{k}\right)\right) \mid s_{0}=s\right] \\ &=R(s, \pi(s))+\mathbb{E}_{s^{\prime} \sim \operatorname{Pr}\left(s^{\prime} \mid s, \pi(s)\right)}\left[\sum_{k=1}^{\infty} \gamma^{k} R\left(s_{k}, \pi\left(s_{k}\right)\right) \mid s_{1}=s^{\prime}\right] \\ &=R(s, \pi(s))+\gamma \sum_{s^{\prime}} \operatorname{Pr}\left(s^{\prime} \mid s, a\right) \mathbb{E}\left[\sum_{k=0}^{\infty} \gamma^{k} R\left(s_{k}, \pi\left(s_{k}\right)\right) \mid s_{0}=s^{\prime}\right] \\ &= R(s,\pi(s)) + \gamma \sum_{s^{\prime}} \operatorname{Pr}\left(s^{\prime} \mid s, \pi(s)\right) V^{\pi}\left(s^{\prime}\right) \end{aligned}$
即我们可以把值函数写递归的形式。

策略评价的值迭代算法：
在这里插入图片描述
策略优化的值迭代算法：

优化策略的策略迭代算法：

Policy Approaches

马尔可夫链

遍历的马尔可夫链：

每个状态之间都有路径可以转移；
状态和状态之间没有loop
遍历的马尔可夫链会有以下性质：
$p_{i j}^{(n)} \rightarrow q_{j}, \text { as } n \rightarrow \infty$
就是说它在经历过n次的状态转移后会收敛的。

Policy Methods

假设我们的policy $\pi_{\theta}$ 是用参数 $\theta$ 来确定的。那么我们可以把目标函数（累计奖励的期望，这个是一个平均价值的公式）写成如下形式：
$J(\theta)=\sum_{s \in S} d^{\pi}(s) V^{\pi}(s)=\sum_{s \in S} d^{\pi}(s)\left(\sum_{a \in A} \pi_{\theta}(a \mid s) Q^{\pi}(s, a)\right)$
其中 $d^{\pi}(s)$ 是 $d^{\pi}(s) = \lim _{t \rightarrow \infty} p\left(S_{t}=s \mid s_{0}, \pi_{\theta}\right)$ 当agent在第t个step后，从状态 $s_0$ 出发，跟随policy $\pi_{\theta}$ 是一个静态(stationary)分布的一个概率。

既然目标函数是一个关于 $\theta$ 的函数，那么对它的最大最小化就可以采用梯度下降的方式，因为这里要最大化目标函数，故采用的是梯度上升。
但是这里要注意的是，动作的选择不仅依赖于 $\pi$ 也依赖于状态 $d^{\pi}(s)$ ，所以求梯度的时候就比较复杂。Sutton呢就通过一些trick，使得求导的时候与状态 $d^{\pi}(s)$ 无关了。

我们来看一下推导：
$\begin{aligned} & \nabla _ { \theta } \left( \mathrm { E } \left[ \sum _ { k = 1 } ^ { \alpha } \gamma ^ { k - 1 } r _ { t + k } \mid s _ { t } = s _ { 0 } , \pi \right] \right) = \nabla _ { \theta } V ^ { \pi } \left( s _ { 0 } \right) = \nabla _ { \theta } \left( \sum _ { a \in A } Q ^ { \pi } \left( s _ { 0 } , a \right) \pi _ { \theta } \left( a \mid s _ { 0 } \right) \right) \\ = & \sum \left( Q ^ { \pi } \left( s _ { 0 } , a \right) \nabla _ { \theta } \pi _ { \theta } \left( a \mid s _ { 0 } \right) + \pi _ { \theta } \left( a \mid s _ { 0 } \right) \nabla _ { \theta } Q ^ { \pi } \left( s _ { 0 } , a \right) \right) & \text { product rule } \end{aligned}$
这里写把值函数的定义写出来，然后用了一波链式法则。

接下来把 $Q^{\pi}(s_{0},a)$ 按照动作值函数的定义写开来得到下面的公式：
$\sum _ { a \in A } \left( Q ^ { \pi } \left( s _ { 0 } , a \right) \nabla _ { \theta } \pi _ { \theta } \left( a \mid s _ { 0 } \right) + \pi _ { \theta } \left( a \mid s _ { 0 } \right) \nabla _ { \theta } \left( \sum _ { s ^ { \prime } , r } P \left( s ^ { \prime } , r \mid s_0 , a \right) \left( r + V ^ { \pi } \left( s ^ { \prime } \right) \right) \right) \right)$
因为梯度是对于 $\theta$ 的，所以可以把关于 $r$ 的项给移除：
$\sum _ { a \in A } \left( Q ^ { \pi } \left( s _ { 0 } , a \right) \nabla _ { \theta } \pi _ { \theta } \left( a \mid s _ { 0 } \right) + \pi _ { \theta } \left( a \mid s _ { 0 } \right) \left( \sum _ { s^{'} , r } P \left( s ^ { \prime } , r \mid s _ { 0 } , a \right) \nabla _ { \theta } V ^ { \pi } \left( s ^ { \prime } \right) \right) \right) \text { remove } r$
接下来可以把 $r$ 给marginalise掉，就可以得到下式：
$\sum _ { a \in A } \left( Q ^ { \pi } \left( s _ { 0 } , a \right) \nabla _ { \theta } \pi _ { \theta } \left( a \mid s _ { 0 } \right) + \pi _ { \theta } \left( a \mid s _ { 0 } \right) \left( \sum _ { s \prime } P \left( s ^ { \prime } \mid s _ { 0 } , a \right) \nabla _ { \theta } V ^ { \pi } \left( s ^ { \prime } \right) \right) \right)$
然后把对于动作的求和符号放到式子里面去可以得到下面的关系：
$\sum _ { a \in A } \left( Q ^ { \pi } \left( s _ { 0 } , a \right) \nabla _ { \theta } \pi _ { \theta } \left( a \mid s _ { 0 } \right) \right) + \sum _ { a \in A } \pi _ { \theta } \left( a \mid s _ { 0 } \right) \left( \sum _ { s \prime } P \left( s ^ { \prime } \mid s _ { 0 } , a \right) \nabla _ { \theta } V ^ { \pi } \left( s ^ { \prime } \right) \right)$
交换求和符号可以得到下式：
$\sum _ { a \in A } \left( Q ^ { \pi } \left( s _ { 0 } , a \right) \nabla _ { \theta } \pi _ { \theta } \left( a \mid s _ { 0 } \right) \right) + \sum _ { s \prime } \left( \sum _ { a \in A } \pi _ { \theta } \left( a \mid s _ { 0 } \right) P \left( s ^ { \prime } \mid s _ { 0 } , a \right) \right) \nabla _ { \theta } V ^ { \pi } \left( s ^ { \prime } \right)$
然后就可以得到以下的递归关系：
$\begin{aligned} \nabla _ { \theta } V ^ { \pi } \left( s _ { 0 } \right) = & \sum _ { a \in A } \left( Q ^ { \pi } \left( s _ { 0 } , a \right) \nabla _ { \theta } \pi _ { \theta } \left( a \mid s _ { 0 } \right) \right) \\ & + \sum _ { s \prime } \left( \sum _ { a \in A } \pi _ { \theta } \left( a \mid s _ { 0 } \right) P \left( s ^ { \prime } \mid s _ { 0 } , a \right) \right) \nabla _ { \theta } V ^ { \pi } \left( s ^ { \prime } \right) \end{aligned}$
再简化一些就可以得到以下公式：
$\nabla _ { \theta } V ^ { \pi } \left( s _ { 0 } \right) = \varphi \left( s _ { 0 } \right) + \sum _ { s ^ { \prime } } P ^ { \pi } \left( s ^ { \prime } \mid s _ { 0 } \right) \nabla _ { \theta } V ^ { \pi } \left( s ^ { \prime } \right)$
其中 $\varphi \left( s _ { 0 } \right) = \sum _ { a \in A } \left( Q ^ { \pi } \left( s _ { 0 } , a \right) \nabla _ { \theta } \pi _ { \theta } \left( a \mid s _ { 0 } \right) \right)$ ，马尔可夫转移过程为： $\pi } \left( s ^ { \prime } \mid s _ { 0 } \right) = \sum _ { \mathrm { a } \in A } \pi _ { \theta } \left( a \mid s _ { 0 } \right) P \left( s ^ { \prime } \mid s _ { 0 } , a \right)$

在策略 $\pi$ 下，从状态 $s_0$ 经过 $k$ 步到达状态 $s^{''}$ 的概率为：
$\pi } \left( s ^ { \prime \prime } \mid s _ { 0 } , k \right) \equiv \sum _ { s ^ { \prime } } P ^ { \pi } \left( s ^ { \prime \prime } \mid s ^ { \prime } , k - 1 \right) P ^ { \pi } \left( s ^ { \prime } \mid s _ { 0 } \right)$

让我们再结合上式以及简化后的公式来得到下式：
$\begin{aligned} \nabla _ { \theta } V ^ { \pi } \left( s _ { 0 } \right) &= \varphi \left( s _ { 0 } \right) + \sum _ { s \prime } P ^ { \pi } \left( s ^ { \prime } \mid s _ { 0 } \right) \nabla _ { \theta } V ^ { \pi } \left( s ^ { \prime } \right) \\ &= \varphi \left( s _ { 0 } \right) + \sum _ { s \prime } P ^ { \pi } \left( s ^ { \prime } \mid s _ { 0 } , 1 \right) \left[ \varphi \left( s ^ { \prime } \right) + \sum _ { s ^ { \prime } } P ^ { \pi } \left( s ^ { \prime \prime } \mid s ^ { \prime } \right) \nabla _ { \theta } V ^ { \pi } \left( s ^ { \prime \prime } \right) \right] \end{aligned}$
把求和号吃进去，得到下式：
$\varphi \left( s _ { 0 } \right) + \left[ \sum _ { s ^ { \prime } } P ^ { \pi } \left( s ^ { \prime } \mid s _ { 0 } , 1 \right) \varphi \left( s ^ { \prime } \right) \right] + \left[ \sum _ { s \prime } P ^ { \pi } \left( s ^ { \prime } \mid s , 1 \right) \sum _ { s ^ { \prime \prime } } P ^ { \pi } \left( s ^ { \prime \prime } \mid s ^ { \prime } \right) \nabla _ { \theta } V ^ { \pi } \left( s ^ { \prime \prime } \right) \right]$
再整理一下得到下式：
$\begin{aligned} &= \varphi \left( s _ { 0 } \right) + \left[ \sum _ { s ^ { \prime } } P ^ { \pi } \left( s ^ { \prime } \mid s _ { 0 } , 1 \right) \varphi \left( s ^ { \prime } \right) \right] + \left[ \sum _ { s \prime \prime } \sum _ { s ^ { \prime } } P ^ { \pi } \left( s ^ { \prime } \mid s , 1 \right) P ^ { \pi } \left( s ^ { \prime \prime } \mid s ^ { \prime } \right) \nabla _ { \theta } V ^ { \pi } \left( s ^ { \prime \prime } \right) \right] \\ &= \varphi \left( s _ { 0 } \right) + \left[ \sum _ { s ^ { \prime } } P ^ { \pi } \left( s ^ { \prime } \mid s _ { 0 } , 1 \right) \varphi \left( s ^ { \prime } \right) \right] + \left[ \sum _ { s \prime \prime } ^ { \infty } P ^ { \pi } \left( s ^ {\prime\prime} \mid s , 2 \right) \nabla _ { \theta } V ^ { \pi } \left( s ^ { \prime \prime } \right) \right] \end{aligned}$

这样不断把值函数进行拆分后可以得到以下求和公式：
$\begin{aligned} &= \sum _ { s \in S } \sum _ { k = 0 } ^ { \infty } P ^ { \pi } \left( s \mid s _ { 0 } , k \right) \varphi ( s ) \\ &= \sum _ { s \in S } \sum _ { k = 0 } ^ { \infty } \left[ P ^ { \pi } \left( s \mid s _ { 0 } , k \right) \sum _ { a \in A } \left( Q ^ { \pi } ( s , a ) \nabla _ { \theta } \pi _ { \theta } ( a \mid s ) \right) \right] \end{aligned}$
我们定义 $d^{\pi}(s)$ 为从状态 $s_0$ 转移到状态 $s$ 的所有可能情况，即下式：
$\pi } ( s ) : = \sum _ { k = 0 } ^ { \alpha } P ^ { \pi } \left( s \mid s _ { 0 } , k \right)$
所以原式就变成了：
$\begin{aligned} \nabla _ { \theta } V ^ { \pi } \left( s _ { 0 } \right) &= \sum _ { s \in S } \sum _ { k = 0 } ^ { \alpha } \left[ P ^ { \pi } \left( s \mid s _ { 0 } , k \right) \sum _ { a \in A } \left( Q ^ { \pi } ( s , a ) \nabla _ { \theta } \pi _ { \theta } ( a \mid s ) \right) \right] \\ &= \sum _ { s \in S } d ^ { \pi } ( s ) \sum _ { a \in A } \left( Q ^ { \pi } ( s , a ) \nabla _ { \theta } \pi _ { \theta } ( a \mid s ) \right) \end{aligned}$

REINFORCE算法

在这里插入图片描述
这是用MC来采样的，需要有从t时刻的完整episode才行。

为了减小方差，通常采用Advantage函数来进行梯度的更新：
在这里插入图片描述
REINFORCE算法的详细解释：
我们还需要一种获取样本的方法，这些采样的样本梯度的期望正比于性能指标对于策略参数的实际梯度。策略梯度定理公式的右边是将目标策略 $\pi$ 下每个策略出现的频率作为加权系数的求和项，如果按策略 $\pi$ 下每个策略
对于值函数的梯度目前来说是这样的：
$\begin{aligned} \nabla J ( \theta ) &= \sum _ { s } \mu _ { \pi } ( s ) \sum _ { a } q _ { \pi } ( s , a ) \nabla _ { \theta } \pi ( a \mid s , \theta )\\ &=\mathbb{E}[\sum_{a}q_{\pi}(S_{t},a)\nabla\pi(a|S_{t},\theta)] \end{aligned}$
与引入 $S_t$ 的过程类似，我们将 $A_t$ 引入进来，把对随机变量所有可能取值的求和运算替换为对 $\pi$ 的期望，然后对期望进行采样。上式涉及了对动作的求和，但每一项中并没有将 $\pi(a|S_{t},\theta)$ 作为加权求和系数，而这是对 $\pi$ 求期望所必须的。所以，我们采用了一个不改变等价性的方法来引入这个概率加权系数，并将每一个求和项分别乘上再除以概率 $\pi(a|S_{t},\theta)$ 就可以了我们有：
$\begin{aligned} \nabla J ( \boldsymbol { \theta } ) & = \mathbb { E } _ { s \sim \pi } \left[ \sum _ { a } \pi \left( a \mid S _ { t } , \boldsymbol { \theta } \right) q _ { \pi } \left( S _ { t } , a \right) \frac { \nabla \pi \left( a \mid S _ { t } , \boldsymbol { \theta } \right) } { \pi \left( a \mid S _ { t } , \boldsymbol { \theta } \right) } \right] \\ & = \mathbb { E } _ { s , a \sim \pi } \left[ q _ { \pi } \left( S _ { t } , A _ { t } \right) \frac { \nabla \pi \left( A _ { t } \mid S _ { t } , \boldsymbol { \theta } \right) } { \pi \left( A _ { t } \mid S _ { t } , \boldsymbol { \theta } \right) } \right] \\ & = \mathbb { E } _ { s , a \sim \pi } \left[ G _ { t } \frac { \nabla \pi \left( A _ { t } \mid S _ { t } , \boldsymbol { \theta } \right) } { \pi \left( A _ { t } \mid S _ { t } , \boldsymbol { \theta } \right) } \right] \end{aligned}$
这里做的替换是： $\mathbb{E}_{\pi}[G_t|S_t,A_t] = q_{\pi}(S_{t},A_{t})$

它的更新有直观上的吸引力。每一个增量更新都正比于回报 $G_t$ 和一个向量的乘积，这个向量是选取动作的概率的梯度除以这个概率本身。这个向量是参数空间中使得将来在状态 $S_t$ 下重复选择动作 $A_t$ 的概率增加最大的方向。这个更新使得参数向量沿着这个方向增加，更新大小正比于回报，反比于选择动作的概率。前者的意义在于它使得参数向着更有利于产生最大回报的动作的方向更新。后者的意义是因为如果不这样的话，频繁被选择的动作会占优，即使这些动作并不是产生最大回报的动作，这就回影响性能指标的优化。