【强化学习笔记】2 马尔可夫决策过程

【深入浅出强化学习原理入门学习笔记】2.马尔可夫决策过程

${\color{red}{马尔科夫性}}$ ： $P \big[S_{t+1}|S_t\big]=P\big[S_{t+1}|S_1,S_2,S_3,...,S_t\big]$ 即系统的下一个状态只与当前状态有关，与之前状态无关。

${\color{red}{马尔科夫过程}}$ ：随机变量序列中的每个状态都是马尔科夫的，是一个二元组 $(S, P)$ , $S$ 为有限状态集, $P$ 是状态转移概率。

${\color{red}{马尔可夫决策过程}}$ ：将动作（策略）和回报考虑在内的马尔科夫过程，用元组表示是 $\big(S, A, P, R, \gamma\big)$ , $S$ 为有限状态集, $A$ 为有限动作集， $P$ 是状态转移概率（包含动作）， $R$ 为回报函数， $\gamma$ 为回报折扣因子。

${\color{red}{强化学习的目标}}$ 是给定一个马尔科夫决策过程，寻找最优策略，这里的策略是指 ${\color{red}{从状态到行动的映射}}$ ，即： $\pi(a|s)=p\big[A_t=a|S_t=s\big]$ ，
意思为：策略 $\pi$ 在每一个状态 $s$ 下指定一个动作概率，如果是一个确定的动作，该策略为确定性策略。

强化学习的策略一般是随机策略，智能体尝试其他动作以便找到更好的策略，所以引入概率因素。既然策略是随机的策略，那么状态变化序列可能不一样，因此累积回报也是随机的。

在给定的策略 $\pi$ 的作用下，可以计算 ${\color{red}{累积回报}}$ $G_t$ ,
$G_t=R_{t+1}+\gamma R_{t+2}+....=\sum_{k=0}^\infty \gamma^kR_{t+k+1}$
如果从某一状态 $s_1$ 出发，可以得到不同的序列，然后得到不同的累积回报值。

为了评估策略 $\pi$ 作用下状态 $s$ 的价值，通过期望描述，定义为 ${\color{red}{状态值函数}}$ ，表示是：
$\upsilon_\pi(s)=E_\pi\big[\sum_{k=0}^\infty\gamma^kR_{t+k+1}|S_t=s\big]$ ，
基本意思是策略 $\pi$ 作用下状态 $s$ 后所有回报的加权和的均值。

在这里考虑的是马尔科夫决策过程，因此往往是评估在策略 $\pi$ 和状态 $s$ 下，某个行为 $a$ 的价值，定义为 ${\color{red}{状态-行为值函数}}$ ，表示是
$q_\pi(s,a)=E_\pi\big[\sum_{k=0}^\infty\gamma^kR_{t+k+1}|S_t=s, A_t=a\big]$ ，

可以推导出状态值函数和状态行为值函数的贝尔曼方程为：
$\upsilon_\pi(s)=E_\pi\big[R_{t+1}+\gamma\upsilon(S_{t+1})|S_t=s\big]$
$q_\pi(s,a)=E_\pi\big[R_{t+1}+\gamma q(S_{t+1},A_{t+1})|S_t=s, A_t=a\big]$

${\color{red}{状态值函数与状态-行为值函数的关系}}$ 为：
（1） $\upsilon_\pi(s)=\sum \limits_{a\in A} \pi(a|s) q_\pi(s,a)$
这个式子的意思是：在状态 $s$ 处的值函数等于采取策略 $\pi$ 时，所有状态-行为值函数的总和。

（图形解释）
(2) $q_\pi(s,a)=R^{a}_{s}+\gamma\sum \limits_{s^{'}\in S} P^a_{ss^{'}}\upsilon(s^{'})=R^{a}_{s}+\gamma\sum \limits_{s^{'}\in S} P^a_{ss^{'}}\sum\limits_{a^{'}\in A}\pi(s^{'},a^{'})q_\pi(s^{'},a^{'})$
这个式子的意思是：在状态 $s$ 处采取行为 $a$ 的状态-行为值函数等于回报加上后续状态的值函数。

将式（2）带入式（1）
$\upsilon_\pi(s)=\sum \limits_{a\in A} \pi(a|s) (R^{a}_{s}+\gamma\sum \limits_{s^{'}\in S} P^a_{ss^{'}}\upsilon(s^{'})）$
也就是说在状态 $s$ 处的值函数 $\upsilon_\pi(s)$ ,可以利用后续状态的值函数 $\upsilon(s^{'})$ 来表示。

在所有策略中，使得值函数值最大的策略称之为最优策略，同时对应着最优状态值函数和最优状态-行为值函数，表示如下：
$\upsilon^*(s)=\max \limits_{\pi}v_\pi(s)$
$q^*(s,a)=\max \limits_{\pi}q_\pi(s,a)$

可以得到最优状态值函数和最优状态-行为值函数的贝尔曼方程，表示如下：
$\color{red}{\upsilon^*(s)=\max \limits_{a} R^{a}_{s}+\gamma\sum \limits_{s^{'}\in S} P^a_{ss^{'}}\upsilon^*(s^{'})}$
$\color{red}{q^*(s,a)=R^{a}_{s} +\gamma\sum \limits_{s^{'}\in S} P^a_{ss^{'}}\max\limits_{a'}q^*(s^{'}, a^{'})}$

如果知道最优状态-行为值函数，最优策略 $\pi^*(a|s)$ 可以通过直接最大化 $q^*(s,a)$ 确定，即：
$\pi^*(a|s)= \begin{cases} 1 \ if a=\mathop{\arg\max}_\limits{a} \ q^*(s,a) \\ 0 \ others \end{cases}$

这个策略为即为 $\color{red}{贪婪策略}$ ,仅仅考虑当前最优，是确定性策略。

常见的概率分布都是常见的随机策略。
1. $\color{red}{贪婪策略}$ ,这个是确定性策略
2. $\color{red}{\epsilon-greedy策略}$
$\pi^*(a|s)= \begin{cases} 1-\epsilon+\epsilon/(|A(s)|) \ if a=\mathop{\arg\max}_\limits{a} \ q^*(s,a) \\ \epsilon/(|A(s)|) \ others \end{cases}$
3. $\color{red}{高斯策略}$
4. $\color{red}{玻尔兹曼分布}$

参考文献
1. 深入浅出强化学习原理入门

【强化学习笔记】2 马尔可夫决策过程

猜你喜欢