强化学习&动态规划3 | 策略迭代 Policy Iteration

将迭代策略评估和策略优化结合起来,就得到了策略迭代算法
在这里插入图片描述
算法的伪代码如下,从对等概率随机策略开始,对于每个状态选择动作的概率是一样的。然后进行迭代策略评估获得相应的值函数和策略完善获得更好或者对等的的策略,直至收敛。

在这里插入图片描述
当然在策略评估这一过程中,我们可以不用θ作为我们的终止条件,而是设定迭代次数,这个算法称为截断策略迭代

猜你喜欢

转载自blog.csdn.net/weixin_43236007/article/details/107857137