RL-赵-(九)-Policy-Based01:策略梯度方法(Policy Gradient Methods)【表格-->函数(NN)】【REINFORCE algorithm<-->基于MC方法】

在这里插入图片描述

在这里插入图片描述

一、Basic idea of policy gradient
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
二、Metrics to define optimal policies
1、The average value
1.1 average state value

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
1.2 average one-step reward
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
2、Remarks
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
3、Excise
在这里插入图片描述
在这里插入图片描述
三、Gradients of the metrics
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
四、Gradient-ascent algorithm
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
1、REINFORCE algorithm

在这里插入图片描述
在这里插入图片描述




参考资料:
强化学习导论(十三)- 策略梯度法

猜你喜欢

转载自blog.csdn.net/u013250861/article/details/135040435