强化学习笔记-11 Off-policy Methods with Approximation

前几章我们讨论了off-policy方式,其同on-policy方式最大的不同之处在于其在训练所采取的动作,是根据behavior policy进行决策的,而不是根据target policy。这种方式的好处在于兼顾了exploitation and exploration。本节将讨论如何通过模型近似的方式来应用off policy强化学习。

1. Importance sampling

off-policy策略一个很大问题在于target policy和behavior policy之间存在偏差,这个偏差可以通过重要性采样来扭正:

\rho_t = \frac{\pi(A_t|S_t)}{b(A_t|S_t)}

G_t^{\pi}(s) =\rho_t G_t^{b}(s)=(\prod_{i=0}^{n-1} \rho_{t+i})G_{t:t+n}^{b}(s)

此时之前的价值模型的参数更新公式:

w_{t+1}=w_t + \alpha \rho_t (G_t-v(s|w))\partial_w v(s|w)\\ =w_t + \alpha (\prod_{i=0}^{n-1} \rho_{t+i}) (G_{t:t+n}-v(s|w))\partial_w v(s|w)\\ =w_t + \alpha (\prod_{i=0}^{n-1} \rho_{t+i})\delta_t \partial_w v(s|w)

这里的\delta_t可以通过上一节所根据TD(0) VS TD(n)以及discounted rewards VS average rewards分别进行设置:

  • TD(0) discounted rewards:\delta_t = r_{t+1} + \gamma Q(s_{t+1}, a_{t+1}|w)-Q(s_t, a|w)
  • TD(n) discounted rewards:\delta_t = \sum_{i=0}^{n-1} \gamma^i r_{t+i+1} + \gamma^n Q(s_{t+n}, a_{t+n}|w)-Q(s_t, a|w)
  • TD(0) average rewards:\delta_t = r_{t+1} - r_t+ Q(s_{t+1}, a_{t+1}|w)-Q(s_t, a|w)
  • TD(n) average rewards:\delta_t = \sum_{i=0}^{n-1} (r_{t+i+1} - r_t)+ Q(s_{t+n}, a_{t+n}|w)-Q(s_t, a|w)

另外在第7章介绍了另一种不通过重新性采样的off-policy策略:tree-backup algorithm

G_t(s,a)=r_{t+1} + \gamma \sum_{a'\neq a_{t+1}}\pi (a'|s_{t+1}) Q(s_{t+1},a') + \gamma \pi (a_{t+1}|s_{t+1}) G(s_{t+1},a_{t+1})

2. Off-policy Divergence

由于target policy和behavior policy之间存在偏差,当这个偏差过大时,会使得价值模型的参数无法收敛。因为off-policy策略可能会系统中大量某些无用状态一直被重复更新,而这些状态的更新会推动整体参数w一直增大。

要解决这个问题,一种思路是采用Q-learning方式,然后在下一动作时采用根据Q(s, a|w)结合ε-greedy来选择。

\delta_t = r_{t+1} - r_t+ \max_{a_{t+1}}Q(s_{t+1}, a_{t+1}|w)-Q(s_t, a|w)

3. Bellman error

之前价值模型的参数是根据累积收益同预估值的平方差VE损失来学习的,这么做对于MC算法是合理的,但对于TD算法却不完全合适,因此按Bellman式子定义如下损失

BE=\sum_s \mu(s)[\sum_{a',s',r} \pi(a'|s')p(s',r|s,a)(r+\gamma v(s'|w))-v(s|w)]^2

在TD(0)的情况下可以改写为,Bellman error 其实就是 TD error 的期望值。

TDE=\sum_s \mu(s) E_\pi [\delta_t^2|s]=\sum_s \mu(s) E_b [\rho _t\delta_t^2|s]

\delta_t = r_{t+1} + \gamma v(s_{t+1}|w) - v(s_t|w)

猜你喜欢

转载自blog.csdn.net/tostq/article/details/131193676
今日推荐