Actor-Critic网络

PPO是基于AC网络架构实现的。

Actor网络

PPO有一个Actor网络，Actor输入的维度为state_dim，即状态维数，输出维度为action_dim，意义是每个action的高斯策略的均值，另外，Actor网络还有action_dim个标准差参数，这样在输入一个state后，每个动作都对应一个一维的高斯分布。
在这里插入图片描述

Critic网络

PPO有一个Critic，Critic网络是用来拟合状态值函数 $v_{\pi}(s)=\mathrm{E}_{\pi}\left[\sum_{k=0}^{\infty} \gamma^{k} R_{t+k+1} \mid S_{t}=s\right]$ 的，其输出维度为1。
在这里插入图片描述

PPO更新关键思想

PPO是一种策略梯度改善算法，因为策略梯度对学习率敏感，易出现训练崩溃现象，由此衍生了TRPO等改善更新步幅的算法，策略梯度的优化损失函数可以表示为： $L^{P G}(\theta)=\hat{\mathbb{E}}_{t}\left[\log \pi_{\theta}\left(a_{t} \mid s_{t}\right) \hat{A}_{t}\right]$ ，而PPO的损失函数可以表为： $L^{C P I}(\theta)=\hat{\mathbb{E}}_{t}\left[\frac{\pi_{\theta}\left(a_{t} \mid s_{t}\right)}{\pi_{\theta_{\text {old }}}\left(a_{t} \mid s_{t}\right)} \hat{A}_{t}\right]=\hat{\mathbb{E}}_{t}\left[r_{t}(\theta) \hat{A}_{t}\right]$ ，其考虑了old网络与新更新参数之间的差异性，为了避免差异过大，引入clip来限制：
$L^{C L I P}(\theta)=\hat{\mathbb{E}}_{t}\left[\min \left(r_{t}(\theta) \hat{A}_{t}, \operatorname{clip}\left(r_{t}(\theta), 1-\epsilon, 1+\epsilon\right) \hat{A}_{t}\right)\right]$
其中： $r_{t}(\theta)=\frac{\pi_{\theta}\left(a_{t} \mid s_{t}\right)}{\pi_{\theta_{\text {old }}}\left(a_{t} \mid s_{t}\right)}$ 。其作用效果如论文中的下图：
在这里插入图片描述
这就是PPO2算法的核心思想。如何计算 $r_{t}(\theta)=\frac{\pi_{\theta}\left(a_{t} \mid s_{t}\right)}{\pi_{\theta_{\text {old }}}\left(a_{t} \mid s_{t}\right)}$ 中的分子分母是之后要讲的。

Actor网络求 $r_t(\theta)$

$r_t(\theta)$ 中有 $\pi_{old}$ 和 $\pi$ ，其中前者在更新buffer时agent利用旧策略接受状态输出动作时可以计算的：

输入state至Actor；
得到每个动作维度的均值；
和每个动作的标准差构成每个维度的高斯分布；
对高斯分布采样得到动作a_noise；
将a_noise代入高斯分布的式子 $\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(a_{noise}-\mu)^{2}}{2 \sigma^{2}}\right)$ ；
为了方便后续计算可以对其取ln，并对其求和，拿到一个标量。

对于 $r_t(\theta)$ 中的 $\pi$ ，它是在更新网络时的新策略，其接受的是旧策略探索得到的buffer中存储的state和action：

输入state至Actor；
得到每个动作维度的均值；
和每个动作的标准差构成每个维度的高斯分布；
将action代入高斯分布的式子 $\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(action-\mu)^{2}}{2 \sigma^{2}}\right)$ ；
方便计算取ln，并对其求和，拿到一个标量。

PPO整体工作流程

PPO是on-policy算法（少数人认为它off-policy，不过我不赞同）。

PPO在每一个episode先清空buffer，再利用旧策略（相对于马上得到的新策略而言）探索环境update buffer，这个buffer装入（r,mask,state,action, $ln\pi_{old}(a_t|s_t)$ ）
当buffer中有一定样本后开始更新策略。返回第一步。

注意，每次更新完都会清空buffer，这可和off-policy算法不同。

更新策略

从buffer中带顺序取出所有样本（r,mask,state,action, $ln\pi_{old}(a_t|s_t)$ ）
利用critic net将state的V值预测出来。
利用GAE计算Advantage（ $\hat{A}_{t}$ ）
for i in sample_times:
1. 随机从buffer中抽取batchsize个样本以及对应的 $\hat{A}_{t}$ 和V值的无偏估计 $\sum_{k=0}^{\infty} \gamma^{k} R_{t+k+1}$ 。
2. 利用critic net计算这些样本下state的V的估计值。
3. critic net的loss由其估计值和V值的无偏估计 $\sum_{k=0}^{\infty} \gamma^{k} R_{t+k+1}$ 构成，具体损失函数自定义。
4. 利用actor net计算在该state，action下新策略的 $ln\pi_{new}(a_t|s_t)$
5. 计算 $r_t(\theta)=e^{ln\pi_{new}(a_t|s_t)-ln\pi_{old}(a_t|s_t)}=\frac{\pi_{new}(a_t|s_t)}{\pi_{old}(a_t|s_t)}$ 。
6. 对 $r_t(\theta)$ clip并乘上 $\hat{A}_{t}$ 作为loss的第一部分。
7. 将新策略的熵作为loss的第二部分。（可以不要）
8. 完成actor和critic的更新（i>1时就有了新策略 $\pi_{new}(a_t|s_t),r_t(\theta)$ 不为1了。）

关于GAE

策略梯度类算法对于Advantage的算法各种各样，GAE方法给出了一种优异的计算方法：
$\widehat{A}_{t}^{G A E(\gamma, \lambda)}=\sum_{l=0}^{\infty}(\gamma \lambda)^{l} \delta_{t+l}^{V}=\sum_{l=0}^{\infty}(\gamma \lambda)^{l}\left(r_{t}+\gamma V\left(s_{t+l+1}\right)-V\left(s_{t+l}\right)\right)$

另外像之前所说的 $\sum_{k=0}^{\infty} \gamma^{k} R_{t+k+1}$ 也是一种计算方法。
关于GAE可以参考：GAE

浅析强化学习Proximal Policy Optimization Algorithms(PPO)

Actor-Critic网络

Actor网络

Critic网络

PPO更新关键思想

Actor网络求 $r_t(\theta)$

PPO整体工作流程

更新策略

关于GAE

猜你喜欢

浅析强化学习Proximal Policy Optimization Algorithms(PPO)

Actor-Critic网络

Actor网络

Critic网络

PPO更新关键思想

Actor网络求 r t ( θ ) r_t(\theta) rt​(θ)

PPO整体工作流程

更新策略

关于GAE

猜你喜欢

Actor网络求 $r_t(\theta)$