深入理解强化学习——马尔可夫决策过程：马尔可夫奖励过程-[计算马尔可夫奖励过程价值的动态规划方法]

文章《深入理解强化学习——马尔可夫决策过程：马尔可夫奖励过程-[计算马尔可夫奖励过程价值的蒙特卡洛方法]》介绍了计算马尔可夫奖励过程价值的蒙特卡洛方法，同时我们也可以用动态规划的方法，一直迭代贝尔曼方程，直到价值函数收敛，我们就可以得到某个状态的价值。我们通过自举（Bootstrapping）的方法不停地迭代贝尔曼方程，当最后更新的状态与我们上一个状态的区别并不大的时候，更新就可以停止，我们就可以输出最新的 $V^{'} (s)$ 作为它当前的状态的价值。这里就是把贝尔曼方程变成一个贝尔曼更新（Bellman Update），这样就可以得到状态的价值。

动态规划的方法基于后继状态价值的估计来更新现在状态价值的估计，如下文所示算法中的第3行用 $V^{'}$ 来更新 $V$ 。根据其他估算值来更新估算值的思想，我们称其为自举。

动态规划方法来计算价值
输入：随机产生轨迹的个数 $N$
(1) $\forall s\in S: V'(s)=0, V(s)=+\infty$
(2) if $\ \ ||V-V'||<\epsilon$
(3) $\quad V=V'$
(4) $\quad \forall s\in S: V'(s)=R(s)+\gamma\sum_{s'\in S}P(s' | s)V(s')$
(5) $\forall s\in S:$ 返回 $V (s)$

参考文献：
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习（第2版）[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践（原书第2版）[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL：强化学习教程 [M]. 人民邮电出版社, 2022

深入理解强化学习——马尔可夫决策过程：马尔可夫奖励过程-[计算马尔可夫奖励过程价值的动态规划方法]

猜你喜欢