深度强化学习系列之（５）前言———策略梯度（Policy Gradient）

对于DQN来说使用一个网络直接逼近了值函数，最后取得了非常不错的效果, 但是对于一些连续性控制或者动作空间特别大的环境来说，很难全部计算所有的值函数来得到最好的策略，那么直接计算策略的方法就别提出来了。

回顾一下前面几篇，所谓的策略，其实就是状态到动作的映射数学表达为 $\pi ： s \to a$ ，
我们用 $\tau$ 表示状态s到最后一个状态的一个序列，表示为：

τ ： s_{t}, s_{t + 1} . . . . s_{T}

$\tau ： s_{t},s_{t+1}....s_{T}$
那么奖励

R (τ)

$R(\tau)$ 是一个随机变量，没法直接作为目标函数被优化，因此采用了随机变量的期望作为目标函数：

\begin{matrix} (1) & J = \int r (τ) P_{π} (τ) d τ \end{matrix}

$J= \int r(\tau)P_{\pi}(\tau)d\tau \tag{1}$
因此强化学习的目标是找到最好的

max_{π} \int R (τ) P_{π} (τ) d τ

$\max\limits_{\pi} \int R(\tau)P_{\pi}(\tau)d\tau$ ,从最优策略的角度来说，对于序列

s_{t}, s_{t + 1} . . . . s_{T}

$s_{t},s_{t+1}....s_{T}$ , 最优的策略序列为：

u_{0}^{*} \to u_{1}^{*} \to u_{2}^{*} \to . . . u_{T}^{*}

$u_{0}^{*} \to u_{1}^{*} \to u_{2}^{*} \to...u_{T}^{*}$ ，总结为：找到最优策略：

π^{*} : s \to u^{*}

$\pi^{*}:s \to u^{*}$ 。

继续从目标函数说起, 由于要用神经网络来计算策略梯度，需要用一个网络结构去逼近策略，在此处我们假设神经网络的结构参数为 $\theta$ ,将目标函数由公式-1变为：

\begin{matrix} (2) & J (θ) = E_{τ \sim π_{θ} (τ)} [r (τ)] = \int_{τ \sim π_{θ} (τ)} π_{θ} (τ) r (τ) d τ \end{matrix}

$J(\theta) = E_{\tau \sim \pi_{\theta}(\tau)}[r(\tau)] = \int _{\tau \sim \pi_{\theta}(\tau)}\pi_{\theta}(\tau)r(\tau)d\tau \tag{2}$
推导原因：

f (x)

$f(x)$ 关于某分布

P (x)

$P(x)$ 的期望，对于连续性变量，期望通过积分求得：

\begin{matrix} (3) & E_{x \sim P} [f (x)] = \int p (x) f (x) d x \end{matrix}

$E_{x \sim P}[f(x)]= \int p(x)f(x)dx \tag{3}$

在数学中梯度的含义就是对函数求取导数，在监督学习中，我们求取损失函数的时候经常求取目标函数的梯度。同理，对于策略的目标函数，我们同样对目标函数 $J(\cdot)$ 公式(2)求取梯度：

\begin{matrix} (4) & \nabla_{θ} J (θ) = \int_{τ \sim π_{θ} (τ)} \nabla_{θ} π_{θ} (τ) r (τ) d τ \end{matrix}

$\nabla_{\theta}J(\theta) = \int _{\tau \sim \pi_{\theta}(\tau)}\nabla_{\theta}\pi_{\theta}(\tau)r(\tau)d\tau \tag{4}$
到这里，我们发现并没有方法直接计算，通过导数求导变换得到：

\begin{matrix} (5) & \nabla_{θ} π_{θ} (τ) = π_{θ} (τ) \nabla_{θ} \log π_{θ} (τ) \end{matrix}

$\nabla_{\theta}\pi_{\theta}(\tau) = \pi_{\theta}(\tau)\nabla_{\theta}\log\pi_{\theta}(\tau) \tag{5}$
将公式(5)代入(4)得到策略梯度：

\begin{matrix} (6) & \nabla_{θ} J (θ) = E_{τ \sim π_{θ} (τ)} [\nabla_{θ} \log π_{θ} (τ) r τ] = \int_{τ \sim π_{θ} (τ)} π_{θ} (τ) \nabla_{θ} \log π_{θ} (τ) r (τ) d τ \end{matrix}

$\nabla_{\theta}J(\theta) = E_{\tau \sim \pi_{\theta}(\tau)}[\nabla_{\theta}\log\pi_{\theta}(\tau)r{\tau}] \\ = \int _{\tau \sim \pi_{\theta}(\tau)}\pi_{\theta} (\tau)\nabla_{\theta}\log \pi_{\theta}(\tau)r(\tau)d\tau \tag{6}$
终于通过变化计算得到了策略梯度的计算方法，但是发现

\nabla_{θ} \log π_{θ} (τ)

$\nabla_{\theta}\log \pi_{\theta}(\tau)$ 并没法直接求取。那么该怎样计算呢？
通过前面我们知道对于序列

τ

$\tau$ ，策略

π (τ) = π (s_{0}, a_{0}, s_{1}, a_{1}, . . ., s_{T}, a_{T})

$\pi(\tau) = \pi(s_{0},a_{0},s_{1},a_{1},...,s_{T},a_{T})$ ,我们将

π (τ)

$\pi(\tau)$ 通过最原始的方法展开得到

\begin{matrix} (7) & π (τ) = p (s_{0}) \prod_{t = 0}^{T} π_{θ} (a_{t} | s_{t}) p (s_{t + 1} | s_{t}, a_{t}) \end{matrix}

$\pi(\tau) = p(s_{0}) \prod_{t=0}^{T}\pi_{\theta}(a_{t}|s_{t})p(s_{t+1}|s_{t},a_{t}) \tag{7}$
于是将公式（7）代入公式(6)得到

\begin{matrix} (8) & \nabla_{θ} \log π_{θ} (τ) = \nabla_{θ} \log (p (s_{0}) \prod_{t = 0}^{T} π_{θ} (a_{t} | s_{t}) p (s_{t + 1} | s_{t}, a_{t})) = \nabla_{θ} (\log p (s_{0}) + \sum_{t = 0}^{T} \log π_{θ} (a_{t} | s_{t}) + \sum_{t = 0}^{T} \log p (s_{t + 1} | s_{t}, a_{t})) = \sum_{t = 0}^{T} \nabla_{θ} \log π_{θ} (a_{t} | s_{t}) \end{matrix}

$\nabla_{\theta}\log \pi_{\theta}(\tau)= \nabla_{\theta}\log(p(s_{0}) \prod_{t=0}^{T}\pi_{\theta}(a_{t}|s_{t})p(s_{t+1}|s_{t},a_{t})) \\ = \nabla_{\theta}(\log p(s_{0})+\sum_{t=0}^{T}\log\pi_{\theta}(a_{t}|s_{t})+\sum_{t=0}^{T}\log p(s_{t+1}|s_{t},a_{t})) \\ = \sum_{t=0}^{T} \nabla_{\theta} \log\pi_{\theta}(a_{t}|s_{t}) \tag{8}$

这样公式已经和监督学习中的最大似然有相同点了，因此我们对其进行蒙特卡洛处理，最终将公式(6)(7)(8)组合，并对公式(6)中的期望用蒙特卡洛进行替换，得到最终策略梯度：

\nabla_{θ} J (θ) = E_{τ \sim π_{θ} (τ)} [\sum_{t = 0}^{T} \nabla_{θ} \log π_{θ} (a_{t} | s_{t}) (\sum_{t}^{T} r (s_{t}, a_{t}))] = \frac{1}{N} \sum_{t = 0}^{N} [\sum_{t = 0}^{T} \nabla_{θ} \log π_{θ} (a_{t} | s_{t}) (\sum_{t = 0}^{T} r (s_{t} | a_{t}))]

$\nabla_{\theta}J(\theta) = E_{\tau \sim \pi_{\theta}(\tau)}[ \sum_{t=0}^{T} \nabla_{\theta} \log\pi_{\theta}(a_{t}|s_{t})(\sum_{t}^{T}r(s_{t},a_{t}))] \\ = \frac{1}{N}\sum_{t=0}^{N}[\sum_{t=0}^{T}\nabla_{\theta}\log\pi_{\theta}(a_{t}|s_{t})(\sum_{t=0}^{T}r(s_{t}|a_{t}))]$
终于我们得到了策略梯度的计算公式，接下来就是更新了梯度，和监督学习是一个方式

\hat{θ} = θ + α \nabla_{θ} J (θ)

$\hat \theta = \theta+\alpha \nabla_{\theta}J(\theta)$
到这里，策略梯度的理论和公式部分计算讲完了，
其实说了这么多，最终只是服务于策略网络的逼近和参数更新，在后面的博客（DDPG等算法的的使用中都会用到）

参考文献：
1.强化学习原理及入门
2.强化学习核心算法讲解

深度强化学习系列之（５）前言———策略梯度（Policy Gradient）

猜你喜欢