一、马尔可夫模型

1. 马尔可夫链

设 $X_{t}$ 表示随机变量X在离散时间t时刻的取值。若该变量随时间变化的转移概率仅依赖于它的当前值，即：

$P(X_{t+1}=s_{j}|X_{0},X_{1}=s_{1},....X_{t}=s_{i})=P(X_{t+1}=s_{j}|X_{t}=s_{t})$

也就是时候状态转移概率指依赖于前一个状态，称这个变量为马尔可夫变量，其中 $s_{0},s_{1}....s_{i},s_{j} \epsilon \Omega$ 为随机变量X可能的状态，这个性质称为马尔可夫性质，具有马尔可夫性质的随机过程称为马尔可夫过程。

马尔可夫链是满足马尔可夫性质的随机过程，指在一段时间内随机变量X的取值序列（ $X_{0},X_{1},...X_{n}$ ）满足上述性质

2、转移概率

马尔可夫链是通过转移概率定义的，转移概率指随机变量从一个时刻到下一个时刻，从状态 $s_{i}$ 转移到状态 $s_{j}$ 的概率：

$P(i\rightarrow j):=P_{i,j}=P(X_{t+1}=s_{j}|X_{t}=s_{i})$

记 $\pi^{(t)}_{k}$ 表示变量X在时刻t的取值为 $s_{k}$ 的概率，则随机变量X在时刻t+1的取值为 $s_{i}$ 的概率为：

$\pi^{(t+1)}_i=P(X_{t+1}=s_{i}) =P(X_{t+1}=s_{i}|X_{t}=s_{0})P(X_{t}=s_{0})+P(X_{t+1}=s_{i}|X_{t}=s_{1})P(X_{t}=s_{1})+... =\sum_{k}P(X_{t+1}=s_{i}|X_{t}=s_{k})\cdot P(X_{t}=s_{k}) =\sumP_{k,i}\cdot \pi^{(t)}_{k}$

假设状态的数目为n，则：

$\left ( \pi _1^{\left ( t+1 \right )},\cdots ,\pi _n^{\left ( t+1 \right )} \right )=\left ( \pi _1^{\left ( t \right )},\cdots ,\pi _n^{\left ( t \right )} \right )\begin{bmatrix} P_{1,1} & P_{1,2} & \cdots & P_{1,n}\\ P_{2,1} & P_{2,2} & \cdots & P_{2,n}\\ \vdots & \vdots & & \vdots \\ P_{n,1} & P_{n,2} & \cdots & P_{n,n} \end{bmatrix}$

3 马尔可夫链的平稳分布

1.周期性：即经过有限次的状态转移，又回到了自身
1. 不可约：两个状态之间的转移
马尔可夫模型如下所示：

可见状态之间没有转换概率，但是隐含态和可见态之间存在一个概率叫做输出概率。
上述概率转移公式就是表示模型中状态转移的情况。
如果一个马尔可夫过程既没有周期性，又不可约，则称为各态遍历的。

对于一个各态遍历的马尔可夫过程，无论初始值 $\pi ^{\left ( 0 \right )}$ 取何值，随着转移次数的增多，随机变量的取值分布最终都收敛到唯一的平稳分布 $\pi ^{\ast }$ ：

$\underset{t\rightarrow \infty }{lim}\pi ^{\left ( 0 \right )}\mathbf{P}^t=\pi ^{\ast }$

其中 $\mathbf{P}=\left ( p_{i,j} \right )_{n\times n}$ 为转移概率矩阵。

二、隐含马尔可夫模型(HMM)

HMM是关于时序的概率模型，描述由一个隐藏的马尔可夫链生成的不客观状态随机序列，再由各个状态生成观测的随机序列的过程，如下所示：

这里写图片描述

1. HMM的定义

HMM的参数：
Q 是所有可能的状态的集合, 其中 N 是可能的状态数;
V 是所有可能的观测的集合, 其中 M 是可能的观测数;
$Q=\{q_1,q_2,\cdots,q_N\},\quad V=\{v_1,v_2,\cdots,v_M\}$
I 是长度为 TT 的状态序列; O 是对应的观测序列:
$I=\{i_1,i_2,\cdots,i_T\},\quad O=\{o_1,o_2,\cdots,o_T\}$

隐马尔科夫也比马尔科夫多了一个假设，即输出仅与当前状态有关，可以用如下公式表示：

P(O1,O2,…,Ot|S1,S2,…,St)=P(O1|S1)P(O2|S2)…*P(Ot|St)

其中，O1,O2,…,Ot为从时刻1到时刻t的观测状态序列，S1,S2,…,St则为隐藏状态序列。

HMM的三要素：
HMM由初始概率分布 ππ (向量)、状态转移概率分布 A(矩阵) 以及观测概率分布 B (矩阵) 确定. π 和 A 决定状态序列, BB 决定观测序列。因此, HMM可以用三元符号表示, 称为HMM的三要素:
$\lambda=(A, B,\pi)$
A是状态转移矩阵：
$A=[a_{ij}]_{N\times N}$
其中, $a_{ij}$ 是在时刻 t 处于状态 $q_i$ 的条件下时刻 t+1 转移到状态 $q_j$ 的概率:
$a_{ij}=P(i_{t+1}=q_j\mid i_t=q_i), \quad i=1,2,\cdots,N;j=1,2,\cdots,N{% endmath %}$

B是观测转移概率矩阵：
$B=[b_{j}(k)]{N\times M}{% endmath %}$

其中, $b_{j}(k)$ 是在时刻 t 处于状态 qi 的条件下生成观测 $v_k$ 的概率:
$b_j(k)=P(o_t=v_k\mid i_t=q_j),\quad k=1,2,\cdots,M;j=1,2,\cdots,N{% endmath %}$

π 是初始状态概率向量:
$\pi=(\pi_i)_{N\times 1}$

其中 $\pi_i{% endmath %}$ 是时刻t=1处于状态 $q_i{% endmath %}$ 的概率：
$\pi_i=P(i_1=q_i),\quad i=1,2,\cdots,N{% endmath %}$

HMM增加了一个假设：
齐次马尔可夫性假设任意时刻 t 的状态, 只依赖于其前一刻的状态, 与其他时刻的状态及观测无关, 也与时刻 t 无关.
$P(i_t\mid i_{t-1},o_{t-1},\cdots,i_1,o_1)=P(i_t\mid i_{t-1}), \quad t=1,2,\cdots,T{% endmath %}$

观测独立性假设任何时刻的观测只依赖于该时刻的马尔科夫链状态. 与其他观测及状态无关.

$P(o_t\mid i_{T},o_{T},\cdots,i_{t},o_{t},\cdots,i_1,o_1)=P(o_t\mid i_{t}), \quad t=1,2,\cdots,T{% endmath %}$

概率计算问题：
1.计算模型λ下观测序列O出现的概率P(O|λ)
2.估计模型 $\lambda=(A, B,\pi)$ 的参数，使得该模型下观测序列P(O|λ)最大
3.已知模型 λ=(A,B,π) , 和观测序列 O={o1,o2,⋯,oT}
求给定观测序列条件概率 P(I∣O,λ)P(I∣O,λ) 最大的状态序列 $I=\{i_1,i_2,\cdots,i_T\}$

2、直接计算

状态 $I=\{i_1,i_2,\cdots,i_T\}$ 的概率

$P(I\mid\lambda)=P(i_1)P(i_2\mid i_1)\cdots P(i_T\mid i_{T-1})=\pi_{i_1}a_{i_1i_2}\cdots a_{i_{T-1}i_T},\quad O(T-1)$

对固定的状态序列 $I=\{i_1,i_2,\cdots,i_T\}$ ,观测序列 $O=\{o_1,o_2,\cdots,o_T\}$ 的概率是:

$P(O\mid I, \lambda)=P(o_1\mid i_1)\cdots P(o_T\mid i_T)=b_{i_1}(o_1)b_{i_2}(o_2)\cdots b_{i_T}(o_T), \quad O(T)$

O 和 I 同时出现的联合概率:
$\begin{align} P(O,I\mid\lambda)&=P(O\mid I, \lambda)P(I\mid\lambda)\notag\\ &=\pi_{i_1}a_{i_1i_2}b_{i_1}(o_1)\cdots a_{i_{T-1}i_T}b_{i_T}(o_T),\quad\quad O(2T-1)=O(T)\notag \end{align}$

对所有可能的状态序列I求和,得到观测序列O的概率：

$\begin{align} P(O\mid\lambda)&=\sum_I P(O\mid I, \lambda)P(I\mid\lambda)\notag\\ &=\sum_{\underbrace{i_1,i_2, \cdots ,i_T}_{N\times N\times \cdots \times N}}\pi_{i_1}a_{i_1i_2}b_{i_1}(o_1) \cdots a_{i_{T-1}i_T}b_{i_T}(o_T),\quad\quad O(TN^T)\notag \end{align}$

此外还有前向算法，及后向算法。

参考：https://clyyuanzi.gitbooks.io/julymlnotes/content/hmm.html

三、马尔可夫决策过程（MDP）

MDP也具有马尔可夫性，与上面不同的是，MDP考虑了动作，即系统的下个状态不仅和当前的状态有关，也与当前采取的动作有关。比如下棋，当我们在某个局面（状态s）走了一步（动作a），这是对手的选择（导致下个状态s’）我们不确定，但是他的选择只与状态s和动作a有关，而与之前的状态和动作无关。

1 、马尔可夫决策过程

一个马尔可夫决策过程由一个四元组构成M = (S, A, Psa, R)

S: 表示状态集(states)，有s∈S，si表示第i步的状态。
A:表示一组动作(actions)，有a∈A，ai表示第i步的动作。
Psa: 表示状态转移概率。Psa 表示的是在当前s ∈ S状态下，经过a ∈ A作用后，会转移到的其他状态的概率分布情况。比如，在状态s下执行动作a，转移到s’的概率可以表示为p(s’|s,a)。
R: S×A⟼ℝ ，R是回报函数(reward function)。有些回报函数状态S的函数，可以简化为R: S⟼ℝ。如果一组(s,a)转移到了下个状态s’，那么回报函数可记为r(s’|s, a)。如果(s,a)对应的下个状态s’是唯一的，那么回报函数也可以记为r(s,a)。

MDP 的动态过程如下：某个智能体(agent)的初始状态为s0，然后从 A 中挑选一个动作a0执行，执行后，agent 按Psa概率随机转移到了下一个s1状态，s1∈ Ps0a0。然后再执行一个动作a1，就转移到了s2，接下来再执行a2…，我们可以用下面的图表示状态转移的过程。
这里写图片描述

如果回报r是根据状态s和动作a得到的，则MDP还可以表示成下图：
这里写图片描述

2、值函数（value function ）
上篇我们提到增强学习学到的是一个从环境状态到动作的映射（即行为策略），记为策略π: S→A。而增强学习往往又具有延迟回报的特点: 如果在第n步输掉了棋，那么只有状态sn和动作an获得了立即回报r(sn,an)=-1，前面的所有状态立即回报均为0。所以对于之前的任意状态s和动作a，立即回报函数r(s,a)无法说明策略的好坏。因而需要定义值函数(value function，又叫效用函数)来表明当前状态下策略π的长期影响。

用Vπ(s)表示策略π下，状态s的值函数。ri表示未来第i步的立即回报，常见的值函数有以下三种：

这里写图片描述 a)
b)
c)

其中：

a)是采用策略π的情况下未来有限h步的期望立即回报总和；

b)是采用策略π的情况下期望的平均回报；

c)是值函数最常见的形式，式中γ∈[0,1]称为折合因子，表明了未来的回报相对于当前回报的重要程度。特别的，γ=0时，相当于只考虑立即不考虑长期回报，γ=1时，将长期回报和立即回报看得同等重要。接下来我们只讨论第三种形式，
现在将值函数的第三种形式展开，其中ri表示未来第i步回报，s’表示下一步状态，则有：

这里写图片描述