马尔科夫决策过程

马尔科夫决策过程

马尔科夫过程

马尔科夫性：系统的下一个状态 $S_{t+1}$ 仅与当前状态有关系，而与如何之前的状态没有关系。也就是说，下一个状态并不取决于之前的状态。（不具备记忆性?）

定义：一个状态 $S_t$ 具备马尔科夫性，当且仅当： $P(S_{t+1}|S_t) = P(S_{t+1}|S_t,S_{t-1},\cdots, S_1)$
从这个定义中可以得知，之前的状态如何并不会影响下一步的状态。

对于一个马尔科夫状态 $s$ 和后续状态 $s'$ ，其间的状态转移概率可以定义为：

P_{s s^{'}} = P (S_{t + 1} = s^{'} | S_{t} = s)

$P_{ss'} = P(S_{t+1} = s' | S_t = s)$

假设一共有 $n$ 个状态，且都具备马尔科夫性，那么它们之间的转换概率可以使用矩阵表示：

P = | \begin{matrix} p_{11} & \dots & p_{1 n} \\ ⋮ & ⋱ & ⋮ \\ p_{n 1} & \dots & p_{n n} \end{matrix} |

$P= \begin{vmatrix} p_{11}& \cdots & p_{1n} \\ \vdots & \ddots &\vdots \\ p_{n1}&\cdots& p_{nn} \end{vmatrix}$

矩阵行表示当前状态，列表示下一个状态，对应的值为两个状态转移的概率。因此，可以得知每列的和为1。

一个马尔科夫过程是无记忆的随机过程，例如一个随机的状态序列，其中每个状态都具备马尔科夫性。马尔科夫过程（马尔科夫链）可以定义为一个元组（tuple） $<S,P>$ ,其中 $S$ 是一个组数目有限的状态， $P$ 是状态转移概率矩阵。

$$

马尔科夫奖励过程

马尔科夫奖励（reward）过程是一个带值得马尔科夫链。通常可以被定义为一个元组 $<S,P,R,\gamma>$ ,其中 $S$ 是一个有限的状态集; $P$ 是状态转移概率矩阵; $R$ 是回报函数， $R_s = E[R_{t+1} | S_t = s]$ ; $\gamma$ 是衰减因子， $\gamma \in [0 , 1]$ 。

回报（return）

回报函数 $G_t$ 是从时间步 $t$ 之后的总的衰减奖励。

G_{t} = R_{t + 1} + γ R_{t + 2} + \dots = \sum_{k = 0}^{} γ^{k} R_{t + k + 1}

$G_t = R_{t+1} + \gamma R_{t+2}+\cdots =\sum_{k=0}^{} \gamma^k R_{t+k+1}$
衰减因子的值会影响后续状态转移的回报值。

γ

$\gamma$ 小则更注重短期(myopic)回报$$；相应地
，$\gamma$若是较大，则表示更加注重长期（far-sight）回报。

为什么需要衰减因子？
1）避免在马尔科夫回环中产生无限大的值
2）未来并不不确定，因此不需要全部回报
3）符合人类的实践行为—注重眼前效益
…

状态价值函数（value function）

价值函数描绘的是状态的长期价值。一个状态的回报值与其形成的马尔科夫链有关系，不同的链具有不同的回报值。因此，一个马尔科夫随机过程中状态 $s$ 的状态价值函数可以定义为其回报的期望：

v (s) = E [G_{t} | S_{t} = s]

$v(s) = E[G_t | S_t = s]$

状态价值函数

贝尔曼方程

从给出的例子中可以看出，马尔科夫链是可以存在回环的，这就回给求回报时带来一定的困难。尤其当 $\gamma \neq 0$ 时。通过观察所定义的状态价值函数，它可以分解为直接回报和后继状态的衰减值：

\begin{aligned} v (s) & = E [G_{t} | S_{t} = s] \\ = E [R_{t + 1} + γ R_{t + 2} + γ^{2} R_{t + 3} + \dots | S_{t} = s] \\ = E [R_{t + 1} + γ (R_{t + 2} + γ R_{t + 3} + \dots) | S_{t} = s] \\ = E [R_{t + 1} + γ G_{t + 1} | S_{t} = s] \\ = E [R_{t + 1} + γ v (S_{t + 1}) | S_{t} = s] \\ v (s) & = E [R_{t + 1} + γ v (S_{t + 1}) | S_{t} = s] \\ = E [R_{t + 1} | S_{t} = s] + γ E [v (S_{t + 1}) | S_{t} = s] \\ = R_{s} + γ \sum_{s^{'} \in S} P_{s s^{'}} v (s^{'}) \end{aligned}

$\begin{aligned} v(s) &= E[ G_t | S_t =s]\\ & =E[R_{t+1}+\gamma R_{t+2} + \gamma ^2 R_{t+3} + \cdots | S_t = s]\\ & =E[R_{t+1}+\gamma (R_{t+2} + \gamma R_{t+3} + \cdots) | S_t = s]\\ & =E[R_{t+1}+\gamma G_{t+1} | S_t = s]\\ & =E[R_{t+1}+\gamma v(S_{t+1}) | S_t = s]\\ \\ v(s) &= E[R_{t+1}+\gamma v(S_{t+1}) | S_t = s]\\ &= E[R_{t+1} | S_t = s]+\gamma E[v(S_{t+1}) | S_t = s]\\ & = R_s + \gamma \sum_{s' \in S} P_{ss'}v(s')\\ \end{aligned}$

将上述式子改写成矩阵形式：

v = R + γ P v [\begin{matrix} v (1) \\ ⋮ \\ v (n) \end{matrix}] = [\begin{matrix} R_{1} \\ ⋮ \\ R_{n} \end{matrix}] + [\begin{matrix} P_{11} & \dots & P_{1 n} \\ ⋮ & ⋱ & ⋮ \\ P_{n 1} & \dots & P_{n n} \end{matrix}] [\begin{matrix} v (1) \\ ⋮ \\ v (n) \end{matrix}]

$\bf v = R + \gamma Pv \\ \begin{bmatrix} v(1) \\ \vdots \\v(n) \end{bmatrix}= \begin{bmatrix} R_1\\ \vdots \\R_n \end{bmatrix}+ \begin{bmatrix} P_{11}& \cdots & P_{1n} \\ \vdots & \ddots & \vdots \\P_{n1} & \cdots &P_{nn} \end{bmatrix} \begin{bmatrix} v(1) \\ \vdots \\v(n) \end{bmatrix}$

这是一个线性方程组，结合线性代数的知识可以直接求解（如果满足要求的话）：

v = (I - γ P)^{- 1} R

$\bf v = (I - \gamma P)^{-1}R$

对于小的MRP问题，可以直接使用上述式子求解。但对于大型的问题，则需要使用迭代的方法来进行求解。如：
-动态规划法
-蒙特卡罗法
-时间差分学习法

马尔科夫决策过程

定义

一个马尔科夫决策过程（MDP）是一个带决策的马尔科夫奖励过程，是一个其中任意状态具备马尔科夫性的环境。

马尔科夫决策过程可以使用一个元组 $<S,A,P,R,\gamma>$ 表示，其中：
$S$ 表示一个有限的状态组，
$A$ 是一个有限的行为组，
$P$ 是状态转移概率矩阵， $R$ 是回报函数;

$P_{s s^{'}}^{a} = P [S_{t + 1} = s^{'} | S_{t} = s, A_{t} = a]$ $P_{ss'}^a = P[S_{t+1} = s' | S_t = s,A_t = a]$ $\gamma$ 是衰减因子， $\gamma \in [0 ,1]$ 。

一个马尔科夫简单的例子如下：
马尔科夫决策过程

策略

一个策略 $\pi$ 是给定状态下关于行为的概率分布：

π (a | s) = P [A_{t} = a | S_{t} = s]

$\pi (a|s) = P[ A_t = a | S_t = s]$

-一个策略完全定义了agent的行为。
-MDP策略取决于当前的状态，非历史状态。
-策略是固定的，不是随时间变化的。

对于给定的一个MDP $M =<S,A,P,R,\gamma>$ 和对应的策略 $\pi$ ，其状态序列 $S_1,S_2,\cdots$ 是一个马尔科夫过程 $<S,P^{\pi}>$ ；状态及回报序列 $S_1,R_2,S_2,\cdots$ 是一个马尔科夫奖励过程 $<S,P^{\pi},R^{\pi},\gamma>$ 。

P_{s s^{'}}^{π} = \sum_{a \in A} π (a | s) P_{s s^{'}}^{a} R_{s}^{π} = \sum_{a \in A} π (a | s) R_{s}^{a}

$P_{ss'}^{\pi} = \sum_{a\in A}\pi(a|s)P_{ss'}^{a}\\ R_{s}^{\pi} = \sum_{a\in A}\pi(a|s)R_{s}^{a}$

相应地，状态价值函数可以定义为：

v_{π} (s) = E_{π} [G_{t} | S_{t} = s] = E_{π} [R_{t + 1} + γ v_{π} (S_{t + 1}) | S_{t} = s]

$v_{\pi}(s) = E_{\pi}[G_t | S_t = s] = E_{\pi}[R_{t+1} + \gamma v_{\pi}(S_{t+1}) | S_t = s]$

另外，可以新定义行为价值函数：

q_{π} (s, a) = E_{π} [G_{t} | S_{t} = s, A_{t} = a] = E_{π} [R_{t + 1} + γ q_{π} (S_{t + 1}, A_{t + 1}) | S_{t} = s, A_{t} = a]

$q_{\pi}(s,a) = E_{\pi}[G_t | S_t = s, A_t = a] =E_{\pi}[R_{t+1} + \gamma q_{\pi}(S_{t+1},A_{t+1}) | S_t = s, A_t = a ]$

贝尔曼方程

\begin{aligned} q_{π} (s, a) & = R_{s}^{a} + γ \sum_{s^{'} \in S} P_{s s^{'}}^{a} v_{π} (s^{'}) \\ = R_{s}^{a} + γ \sum_{s^{'} \in S} P_{s s^{'}}^{a} \sum_{a^{'} \in A} π (a^{'} | s^{'}) q_{π} (s^{'}, a^{'}) \end{aligned}

$\begin{aligned} q_{\pi}(s,a) &=R_s^a +\gamma \sum_{s'\in S}P_{ss'}^a v_{\pi}(s')\\ & = R_s^a +\gamma \sum_{s'\in S}P_{ss'}^a \sum_{a'\in A} \pi(a'|s')q_{\pi}(s',a')\\ \end{aligned}$

贝尔曼行为价值函数

\begin{aligned} v_{π} (s) & = E_{π} [R_{t + 1} + γ v_{π} (S_{t + 1}) | S_{t} = s] \\ = \sum_{a \in A} π (a | s) q_{π} (s, a) \\ = \sum_{a \in A} π (a | s) (R_{s}^{a} + γ \sum_{s^{'} \in S} P_{s s^{'}}^{a} v_{π} (s^{'})) \end{aligned}

$\begin{aligned} v_{\pi}(s) &= E_{\pi}[R_{t+1} + \gamma v_{\pi}(S_{t+1}) | S_t = s]\\ & = \sum_{a \in A} \pi (a | s) q_{\pi}(s,a)\\ & = \sum_{a \in A} \pi (a | s) \left( R_s^a +\gamma \sum_{s'\in S}P_{ss'}^a v_{\pi}(s') \right) \end{aligned}$ 贝尔曼状态价值函数

改写为矩阵形式则有：

v_{π} = R^{π} + γ P^{π} v_{π} v_{π} = (I - γ P^{π})^{- 1} R^{π}

$v_{\pi} = R^{\pi} + \gamma P^{\pi}v_{\pi} \\ v_{\pi} = (I - \gamma P^{\pi})^{-1} R^{\pi}$

最优价值函数

最优状态价值函数

v_{*} (s) = max_{π} v_{π} (s)

$v_*(s) = \max _{\pi} v_{\pi}(s)$

最优行为价值函数

q_{*} (s, a) = max_{π} q_{π} (s, a)

$q_*(s,a) = \max_{\pi} q_{\pi} (s,a)$

最优价值函数指出了在马尔科夫决策过程中可能的最好决策结果，当我们知道最优结果时则称这个马尔科夫决策过程（MDP）是已解（solved）的。

最优策略

定义一种偏序:

如果对于任意的 $s$ 有 $v_{\pi}(s) \ge v_{\pi '}(s)$ ,那么 $\pi \ge \pi '$ .

定理:

对于任意的MDP:
存在一个最优的策略 $\pi_*$ 使得对于任意的 $\pi$ 有 $\pi _*\ge \pi$ ;
所有的最优策略对应最优状态价值函数，即： $v_{\pi_*}(s) = v_*(s)$
所有的最优策略对应最优行为价值函数，即： $q_{\pi_*}(s,a) = q_*(s,a)$

最优策略的寻找可以通过最大化 $q_*(s,a)$ :

π_{*} (a | s) = {\begin{aligned} 1 i f a = \underset{a \in A}{\arg max} q_{*} (s, a) \\ 0 o . w . \end{aligned}

$\pi_*(a|s) = \left \{ \begin{aligned} &1 \qquad if \ \ a = \underset {a\in A}{\arg \max} q_*(s,a) \cr &0 \qquad o.w.\cr \end{aligned} \right.$

对于任意的MDP过程，总是存在一个确定的最优策略；一旦知道 $q_*(s,a)$ 则可以直接得到最优策略。

贝尔曼最优方程

v_{*} (s) = max_{a} R_{s}^{a} + γ \sum_{s^{'} \in S} P_{s s^{'}}^{a} v_{*} (s^{'}) q_{*} (s) = R_{s}^{a} + γ \sum_{s^{'} \in S} P_{s s^{'}} max_{a^{'}} q_{*} (s^{'}, a^{'})

$v_*(s) = \underset{a} \max R_s^a + \gamma \sum_{s' \in S}P_{ss'}^a v_*(s')\\ q_*(s) = R_s^a + \gamma \sum_{s' \in S}P_{ss'} \underset{a'}\max q_*(s',a')$

贝尔曼最优方程是非线性的，通常没有闭式解。但可以通过迭代法来求得数值解：
1、值迭代（value iteration）
2、策略迭代（policy iteration）
3、Q学习
4、Sarsa

References
[1]UCL Course on RL
[2]强化学习入门第一讲 MDP

强化学习：马尔科夫决策过程（MDP）

马尔科夫决策过程

马尔科夫过程

马尔科夫奖励过程

回报（return）

状态价值函数（value function）

贝尔曼方程

马尔科夫决策过程

定义

策略

贝尔曼方程

最优价值函数

最优策略

贝尔曼最优方程

猜你喜欢