文献笔记:Policy Gradient Methods for Reinforcement Learning with Function Approximation

本篇论文讨论了策略梯度方法的函数逼近问题。首先明确策略梯度的目标函数：最大化策略$\pi$下的累计回报$\rho(\pi)$

\[\rho ( \pi ) = E \left\{ \sum _ { t = 1 } ^ { \infty } \gamma ^ { t - 1 } r _ { t } | s _ { 0 } , \pi \right\}\]

上式是初始状态为$s_0$的累计回报表达式，事实上，还可以利用策略生成的平稳状态分布$d^\pi(s)$对$\rho(\pi)$进行加权：

\[\rho ( \pi ) = \lim _ { n \rightarrow \infty } \frac { 1 } { n } E \left\{ r _ { 1 } + r _ { 2 } + \cdots + r _ { n } | \pi \right\} = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \pi ( s , a ) \mathcal { R } _ { s } ^ { a }\]

为了改进策略，我们希望能够按照$\rho(\pi)$的正梯度方向对$\pi$函数进行更新。假设$\theta$是策略函数$\pi$的参数，本文的第一个基本结论为，无论上面哪种形式的$\rho(\pi)$，其梯度都可以被表示为:

\[\frac { \partial \rho } { \partial \theta } = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } Q ^ { \pi } ( s , a )\]

该结论表明$\rho(\pi)$的梯度不涉及$\frac { \partial d ^ { \pi } ( s ) } { \partial \theta }$项，而$d ^ { \pi } ( s )$是可以通过蒙特卡洛模拟得到的，这将为策略梯度方法的计算提供了极大的便利。

本文的结论2则解决了针对策略梯度的实际计算问题。假设$f_w$是$Q^\pi(s,a)$的一个估计，w是逼近器$f_w$的参数，则w的更新方向为:

\[\Delta w _ { t } \propto \frac { \partial } { \partial w } \left[ \hat { Q } ^ { \pi } \left( s _ { t } , a _ { t } \right) -\right.f _ { w } \left( s _ { t } , a _ { t } \right) ] ^ { 2 } \propto \left[ \hat { Q } ^ { \pi } \left( s _ { t } , a _ { t } \right) - f _ { w } \left( s _ { t } , a _ { t } \right) \right] \frac { \partial f _ { w } \left( s _ { t } , a _ { t } \right) } { \partial w }\]

当$f_w$达到局部最优时，应该有：

\[\sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } \left[ Q ^ { \pi } ( s , a ) - f _ { w } ( s , a ) \right] = 0\]

结论2表明如果满足:

\[\frac { \partial f _ { w } ( s , a ) } { \partial w } = \frac { \partial \pi ( s , a ) } { \partial \theta } \frac { 1 } { \pi ( s , a ) }\]

则有：

\[\frac { \partial \rho } { \partial \theta } = \sum _ { s } d ^ { \pi } ( s ) \sum _ { a } \frac { \partial \pi ( s , a ) } { \partial \theta } f _ { w } ( s , a )\]

这样就通过一个对$Q^\pi(s,a)$的估计函数$f_w$实现了策略梯度的实际计算。

为了满足$\frac { \partial f _ { w } ( s , a ) } { \partial w } = \frac { \partial \pi ( s , a ) } { \partial \theta } \frac { 1 } { \pi ( s , a ) }$，本文说明可以通过对$\pi(s,a)$与$f_w(s,a)$的合理构造进行保证，如：

\[\pi ( s , a ) = \frac { e ^ { \theta ^ { T } \phi _ { s a } } } { \sum _ { b } e ^ { \theta ^ { T } \phi _ { s b } } }\]

\[\frac { \partial f _ { w } ( s , a ) } { \partial w } = \frac { \partial \pi ( s , a ) } { \partial \theta } \frac { 1 } { \pi ( s , a ) } = \phi _ { s a } - \sum _ { b } \pi ( s , b ) \phi _ { s b }\]

\[f _ { w } ( s , a ) = w ^ { T } \left[ \phi _ { s a } - \sum _ { b } \pi ( s , b ) \phi _ { s b } \right]\]

上面的构造表明了，本文的算法是$f_w(s,a)$关于$\pi(s,a)$的线性逼近，但是$\pi(s,a)$函数的选取则可以是多种多样的，可以采用复杂的非线性形式，只要根据上面的式子重新推导即可。

最后，本文给出了结论3，表明算法的收敛性，即:

\[\lim _ { k \rightarrow \infty } \frac { \partial \rho \left( \pi _ { k } \right) } { \partial \theta } = 0\]

文献笔记:Policy Gradient Methods for Reinforcement Learning with Function Approximation

猜你喜欢