深入理解强化学习——马尔可夫决策过程：过程控制

策略评估是指给定马尔可夫决策过程和策略，我们可以估算出价值函数的值。本文将阐述如果我们只有马尔可夫决策过程，我们应该如何寻找最佳的策略，从而得到最佳价值函数（Optimal Value Function）的方法。最佳价值函数的定义为：
$V^*(s)=\max_\pi V_\pi(s)$

最佳价值函数是指，我们搜索一种策略 $\pi$ 让每个状态的价值最大。 $V^*$ 就是到达每一个状态，它的值的最大化情况。在这种最大化情况中，我们得到的策略就是最佳策略，即：
$\pi^*(s)=\arg\max_\pi V_\pi(s)$

最佳策略使得每个状态的价值函数都取得最大值。所以如果我们可以得到一个最佳价值函数，就可以认为某个马尔可夫决策过程的环境可解。在这种情况下，最佳价值函数是一致的，环境中可达到的上限的值是一致的，但这里可能有多个最佳策略，多个最佳策略可以取得相同的最佳价值。当取得最佳价值函数后，我们可以通过对Q函数进行最大化来得到最佳策略：
$\pi^*(a|s)=\left\{ \begin{aligned} 1, & \quad a = \arg\max_{a\in A} Q^*(s, a) \\ 0, & \quad\text{其它} \\ \end{aligned} \right.$

综上所述，我们定义最优动作价值函数：
$Q^*(s, a)=\max_\pi Q^\pi(s, a)$

为了使 $Q^*(s, a)$ 最大，我们需要在当前的状态动作对 $(s, a)$ 之后都执行最优策略。于是我们得到了最优状态价值函数和最优动作价值函数之间的关系：
$Q^*(s, a)=r(s, a)+\gamma\sum_{s'\in S}P(s'|s, a)V^*(s)$

这与在普通策略下的状态价值函数和动作价值函数之间的关系是一样的。另一方面，最优状态价值是选择此时使最优动作价值最大的那一个动作时的状态价值：
$V^*(s)=\max_{a\in A}Q^*(s, a)$

综上所述，当Q函数收敛后，因为Q函数是关于状态与动作的函数，所以如果在某个状态采取某个动作，可以使得Q函数最大化，那么这个动作就是最佳的动作。如果我们能优化出一个Q函数 $Q^*(s, a)$ ，就可以直接在Q函数中取一个让Q函数值最大化的动作的值，就可以提取出最佳策略。

策略搜索

最简单的策略搜索方法就是穷举。假设状态和动作都是有限的，那么每个状态我们可以采取 $A$ 种动作的策略，总共就是 $A|^{|S|}$ 个可能的策略。我们可以把策略穷举一遍，算出每种策略的价值函数，对比一下就可以得到最佳策略。

但是穷举非常没有效率，所以我们要采取其他方法。搜索最佳策略有两种常用的方法：策略迭代和价值迭代。寻找最佳策略的过程就是马尔可夫决策过程的控制过程。马尔可夫决策过程控制就是去寻找一个最佳策略使我们得到一个最大的价值函数值，即：
$\pi^*(s)=\arg\max_\pi V_\pi(s)$

对于一个事先定好的马尔可夫决策过程，当智能体采取最佳策略的时候，最佳策略一般都是确定的，而且是稳定的（它不会随着时间的变化而变化）。但最佳策略不一定是唯一的，多种动作可能会取得相同的价值。我们可以通过策略迭代和价值迭代来解决马尔可夫决策过程的控制问题。

参考文献：
[1] 张伟楠, 沈键, 俞勇. 动手学强化学习[M]. 人民邮电出版社, 2022.
[2] Richard S. Sutton, Andrew G. Barto. 强化学习（第2版）[M]. 电子工业出版社, 2019
[3] Maxim Lapan. 深度强化学习实践（原书第2版）[M]. 北京华章图文信息有限公司, 2021
[4] 王琦, 杨毅远, 江季. Easy RL：强化学习教程 [M]. 人民邮电出版社, 2022

深入理解强化学习——马尔可夫决策过程：过程控制

策略搜索

猜你喜欢