1、强化学习---马尔可夫决策过程

马尔可夫决策过程

马尔可夫过程
马尔可夫奖励过程(MRP)
马尔可夫决策过程(MDP)
MDP问题中的预测和控制

马尔可夫过程

已知过往的过程为：
$h_t = \{s_1,s_2,s_3,.....s_t\}$
那具备马尔可夫性的状态有如下性质：
$\begin{aligned} p(s_{t+1}|s_{t}) &= p(s_{t+1}|h_t)\\ p(s_{t+1}|s_t,a_t) &= p(s_{t+1}|h_t,a_t) \end{aligned}$
状态转移矩阵为：
在这里插入图片描述

马尔可夫奖励过程(MRP)

MRP是马尔可夫链+reward
MRP的定义为：

S是一个有限状态的集合；
P是一个动态转移的概率模型 $P(S_{t+1} = s'|s_t = s)$
R是一个奖励函数 $R(s_{t} = s) = \mathbb{E}[r_t|s_t = s]$
折扣因子 $\gamma\in[0,1]$

如果状态有限，R就是一个向量

MRP的例子：
在这里插入图片描述
关于 $r_t$ 和 $R$ 的理解：首先看到 $R$ 是对 $t$ 求期望，故它是一个关于状态的函数，与时间无关。所以 $r$ 是一个随机过程， $r_t$ 是一个随机变量，我们通常说的reward指的是 $R$ 。

值函数

关于回报的定义(return)：从t时刻起，到一个epsiode结束的折扣累积奖励，用 $G_t$ 来表示：
$G_t = R_{t+1} + \gamma R_{t+2} + {\gamma}^2R_{t+3}+.....+{\gamma}^{T-t-1}R_{T}$
注： $R_t$ 是随机变量， $R$ 不是！
对于MRP过程的值函数的定义为:
$\begin{aligned} V_t(s) &= \mathbb{E}[G_t|s_t = s]\\ &= \mathbb{E}[R_{t+1} + \gamma R_{t+2} + {\gamma}^2R_{t+3}+.....+{\gamma}^{T-t-1}R_{T}|s_t = s] \end{aligned}$
由表达式可知， $G_t$ 是一个随机变量， $V_t(s)$ 是一个关于 $t$ 和 $s$ 的二元函数，代表了在当前时刻 $t$ 当前状态 $s$ 下的 $G_t$ 的期望，是一个标量，故它会随着时间和状态都发生改变，值函数的大小也反映了在当前时间点当前状态下的能获得的预期奖励的大小。（这个期望是对 $G_t$ 这个随机变量的分布进行积分。）

MRP的例子：
在这里插入图片描述
从上面的例子可以看出，因为 $G_t$ 是一个关于 $t$ 的随机变量，故在不同的时间点，从同一个状态出发的回报(return) $G_t$ 是不同的，并且会随着时间步的长短和 $\gamma$ 的大小发生较大变化。

MRP的贝尔曼方程(Bellman equation):

通过价值函数的定义可以得到以下递推式：
$\gamma \sum_{s'\in S} P(s'|s)V(s')$
证明：先引入一个引理：期望的和等和的期望。
$\begin{aligned} E[X+Y|S] &= \iint(x+y)f(x,y|s)dxdy \\ &=\iint x f(x,y|s)dxdy + \iint yf(x,y|s)dxdy \\ &=\int xf_X(x|s)dx +\int yf_Y(y|s)dy\\ & = E[X|S] + E[Y|S] \end{aligned}$
所以
$\mathbb{E}[R_{t+1} + \gamma R_{t+2} + {\gamma}^2R_{t+3}+.....+{\gamma}^{T-t-1}R_{T}|s_t = s] \\ = \mathbb{E}[R_{t+1}|s_t = s] +\gamma\mathbb{E}[G_{t+1}|s_t = s]$
通过前述可知， $G_t$ 是由 $R_t$ 求和而成，由定义式知 $G_{t+1}$ 在这里并没有马尔可夫性。( $G_t=R_{t+1} + \gamma R_{t+2}....$ )
故
$\mathbb{E}[G_{t+1}|s_t = s] = \mathbb{E}[G_{t+1}] = \sum P(s'|s)\mathbb{E}[G_{t+1}|s_{t+1} = s']$

我们还可以把递推式写成矩阵形式：
在这里插入图片描述
通过解上述方程便可得到V向量，但是因为复杂度过高，故一般不采用这样的方法。

迭代算法求MRP的值函数

A、蒙特卡洛算法
在这里插入图片描述
（这里t的含义是，当前时刻(迭代了N次以后)的值函数。）
MC方法就是通过采样求平均的方式来用期望的无偏估计平均值来代替期望。

B、迭代求解
在这里插入图片描述
根据MRP的贝尔曼方程一直迭代，直到值函数向量趋于稳定。

马尔可夫决策过程(MDP)

$S$ 是有限状态的集合。
$A$ 是有限动作的集合。
$P^a$ 是一个转移模型 = $P(s_{t+1} = s' | s_t = s,a_t = a)$

MDP由(S,A,P,R, $\gamma$ )构成。
在MDP过程中，R不仅与状态有关还与所采取的动作有关。

MDP中的Policy

Policy是在给定状态时的动作的分布。
Policy: $\pi(a|s) = P(a_t = a|s_t=s)$

根据Policy可以让MDP(S,A,P,R, $\gamma$ )和policy $\pi$ )与MRP过程(S, $P^\pi$ , $R^\pi$ , $\gamma$ )等价：
$P^\pi(s'|s) = \sum_{a\in A}\pi(a|s)P(s'|s,a)\\ R^\pi(s) = \sum_{a\in A}\pi(a|s)R(s,a)$
MP/MRP过程与MDP过程的比较示意图：
在这里插入图片描述
MDP还会多经历一步在动作分布上对动作的采样，从而来决定下一个状态的转移概率。

MDP的值函数

MDP中的值函数(state-value) $v^\pi(s)$ 表示的是在状态s，policy是 $\pi$ 的预期回报。动作价值(action-value)函数是 $q^\pi(s,a)$ 。
$v^\pi(s) = \mathbb{E}[G_t|s_t = s]\\ q^\pi(s,a) = \mathbb{E}[G_t|s_t = s,A_t = a]$
$v^\pi(s)$ 和 $q^\pi(s,a)$ 之间的关系为：
$v^\pi(s) = \sum_{a\in A} \pi(a|s)q^\pi(s,a)\\ q^\pi(s,a) = R_a^s +\gamma \sum_{s'\in S} P(s'|s,a)v^\pi(s')$

贝尔曼期望方程

$v^\pi(s) = E_\pi[R_{t+1}+\gamma v^\pi(s_{t+1})|s_t = s]\\ q^\pi(s,a) = E_\pi[R_{t+1}+\gamma q^\pi(s_{t+1},A_{t+1})|s_t = s,A_t = a]$
根据之前的MRP的贝尔曼方程可以很容易的得到MDP的贝尔曼方程：
$v^\pi (s) = \sum_{a\in A}\pi(a|s)(R(s,a)+\gamma\sum_{s'\in S}P(s'|s,a)v^\pi(s')) \\ q^\pi(s,a) = R(s,a) +\gamma\sum_{s'\in S}P(s'|s,a)\sum_{a'\in A}\pi(a'|s')q^\pi(s',a')$
再从直观上理解以下上述方程表达的含义：
在这里插入图片描述

下图两个练习的代码附在后面：

#练习1
S = list(range(7))
V1 = np.array([0,0,0,0,0,0,0])
V = np.array([999,999,999,999,999,999,999])
R = np.array([5,0,0,0,0,0,10])
epsilon = 10
gamma = 0.5
pro=np.array([[0,0,0,0,0,0,0],[1,0,0,0,0,0,0],[0,1,0,0,0,0,0],[0,0,1,0,0,0,0],
              [0,0,0,1,0,0,0],[0,0,0,0,1,0,0],[0,0,0,0,0,1,0]])
#terminal_state = 0

while np.abs(V1.sum()-V.sum())>0.0001:
    V = V1
    for s in S:
        all_sum = 0
        for s_ in S:
            all_sum = all_sum + pro[s][s_]*V[s_]
        V1[s] = R[s] + gamma*all_sum
print(V)

#练习2
S = list(range(7))
V1 = np.array([0,0,0,0,0,0,0])
V = np.array([999,999,999,999,999,999,999])
R = np.array([5,0,0,0,0,0,10])
epsilon = 10
gamma = 0.5
pro=np.array([[0.5,0.5,0,0,0,0,0],[0.5,0,0.5,0,0,0,0],[0,0.5,0,0.5,0,0,0],[0,0.5,0,0.5,0,0,0],
              [0,0,0,0.5,0,0.5,0],[0,0,0,0,0.5,0,0.5],[0,0,0,0,0,0.5,0.5]])
while np.abs(V1.sum()-V.sum())>0.0001:
    V = V1
    for s in S:
        all_sum = 0
        for s_ in S:
            all_sum = all_sum + pro[s][s_]*V[s_]
        V1[s] = R[s] + gamma*all_sum
print(V)

最优值函数

最优的值函数和动作值函数指的是遍历所有的policy选择能使值函数 $v_\pi(s)$ 或者 $q_\pi(s,a)$ 最大的策略，并将最大值作为最优值函数。
$v_*(s) = \max_{\pi}v_{\pi}(s)\\ q_*(s,a) = \max_{\pi}q_{\pi}(s,a)$
最优值函数展示了MDP的可能的最优表现。

最优policy

定义：如果对于任意状态都有 $v_\pi(s)>= v_{\pi'}(s)$ 那么就有， $\pi>=\pi'$
定理：对于任意的MDP都存在以下性质：

一定存在最优策略 $\pi_*$
最优策略一定能够产生最优值函数 $v_{\pi_*}(s) = v_*(s)$
最优策略一定能产生最优的动作值函数 $q_{\pi_*}(s,a) = q_*(s,a)$

最优策略可以通过最大化动作值函数来获得：
$\pi_{*}(a | s)=\left\{\begin{array}{ll} 1 & \text { if } a=\underset{a \in \mathcal{A}}{\operatorname{argmax}} q_{*}(s, a) \\ 0 & \text { otherwise } \end{array}\right.$
注：对于任意的MDP一定存在一个最优的决定性的policy。

MDP问题中的预测和控制

1、prediction：

输入：MDP $<S,A,P,R,\gamma>$ 和ploicy $\pi$ 或者写成 $<S,P^\pi,R^\pi,\gamma>$
输出：价值函数 $v^\pi$

2、control：

输入：MDP $<S,A,P,R,\gamma>$
输出：最优的值函数 $v^*$ 和最优的policy $\pi^*$

以上两个问题都可以用动态规划来解决。因为原问题可以被递归分解成多个子问题，故若达到全局最优，那在任一子问题上也是最优。