[模式识别] [讲义] 马尔科夫链与隐式马尔科夫模型

随机过程：

每个随机过程是关于随机变量 $t$ 的函数:
连续情况下 $\zeta(t),\;t\in[\alpha, \beta]$ ；
离散情况下 $\zeta(t_1) ... \zeta(t_T),\;t = 1,...,T$ ；

离散时间随机过程，状态序列 $S_1,...S_T$ ，记 $V={1,2,...,N}$ ，即 $S_t$ 取值为 $V$ 中某个 $i$ ， $S_t = i$

P (S_{1}, . . ., S_{T}) = P (S_{1}) \cdot P (S_{2} | S_{1}) \cdot P (S_{3} | S_{1}, S_{2}) . . . \cdot P (S_{T} | S_{1}, . . ., S_{T - 1})

$P(S_1,...,S_T) = P(S_1)\cdot P(S_2|S_1)\cdot P(S_3|S_1,S_2)...\cdot P(S_T|S_1,...,S_{T-1})$

马尔科夫性：前一个状态确定，后一个状态就只跟前一个状态有关，即

P (S_{T} | S_{1}, . . ., S_{T - 1}) = P (S_{T} | S_{T - 1})

$P(S_T|S_1,...,S_{T-1}) = P(S_T|S_{T-1})$

所以：

\begin{aligned} P (S_{1}, . . ., S_{T}) & = P (S_{1}) \cdot P (S_{2} | S_{1}) \cdot P (S_{3} | S_{2}) . . . \cdot P (S_{T} | S_{T - 1}) \\ = P (S_{1}) \prod_{t = 2}^{T} P (S_{t} | S_{t - 1}) \end{aligned}

$\begin{split} P(S_1,...,S_T) & = P(S_1)\cdot P(S_2|S_1)\cdot P(S_3|S_2)...\cdot P(S_T|S_{T-1}) \\ & = P(S_1) \prod_{t=2}^{T} P(S_t|S_{t-1}) \end{split}$
上式称为 马尔科夫过程/马尔科夫链。

齐次马尔科夫过程： $P(S_2 = j | S_1 = i) = P(S_3 = j | S_2 = i)$

即（与 $t$ 无关）：

P (S_{t} = j | S_{t - 1} = i) = a_{i j}

$P(S_t = j | S_{t-1} = i) = a_{ij}$

隐式马尔科夫模型（HMM, Hidden Markov Model）

$S = \{1,2,...,N\}, \;\; N$ 个状态（股市的牛、熊、 $Boring$ ）；

初始状态概率分布 $\pi = [\pi_1, ...,\pi_N]$ ；

状态转移矩阵 $A = [ a_{ij} ]_{N*M}, \; a_{ij} = P(S_t | S_{t-1})$ ；

A = \begin{matrix} 牛 熊 B o r i n g \\ [\begin{matrix} 0.6 & 0.2 & 0.2 \\ 0.5 & 0.3 & 0.2 \\ 0.4 & 0.1 & 0.5 \end{matrix}] \end{matrix}

$A =\begin{array}{c} 牛 \;\;\; \;\;熊 \;\;\;Boring \\ \begin{bmatrix} 0.6 & 0.2& 0.2 \\ 0.5 & 0.3 & 0.2 \\ 0.4 & 0.1 & 0.5 \end{bmatrix} \end{array}$

$V = {V_1,...,V_m}$ ，每个状态下的观察符号为 $M$ （股票的升、降、平）；

观察符号概率分布矩阵 $B = [ b_{jk} ]_{N*M},\; b_{jk} = P(O_t = V_k | S_t = j)$ ;

B = \begin{matrix} 状 态 \\ 1 - 牛 \\ 2 - 熊 \\ 3 - B o r \end{matrix} \begin{matrix} 升 降 平 \\ [\begin{matrix} 0.6 & 0.2 & 0.2 \\ 0.5 & 0.3 & 0.2 \\ 0.4 & 0.1 & 0.5 \end{matrix}] \end{matrix}

$B =\begin{array}{c} 状态 \\ 1-牛\\ 2-熊 \\ 3-Bor \end{array} \quad \begin{array}{c} 升 \;\;\; \;\;降 \;\;\;\;\;平 \\ \begin{bmatrix} 0.6 & 0.2& 0.2 \\ 0.5 & 0.3 & 0.2 \\ 0.4 & 0.1 & 0.5 \end{bmatrix} \end{array}$

记观察序列为 $O = \{O_1,O_2,...,O_T\},\;S = \{S_1,...,S_T\}$

P (O | A, B, π) = P (O | λ) = \sum_{S} P (O, S | λ) = \sum_{S} P (O | S λ) \cdot P (S | λ)

其中：

\begin{aligned} P (S | λ) & = P (S_{1}, . . ., S_{T} | λ) \\ = P (S_{1}) P (S_{2} | S_{1}) . . . P (S_{T} | S_{T - 1}) \\ = π_{S_{1}} a_{S_{1} S_{2}} . . . a_{S_{T - 1} S_{T}} \end{aligned}

$\begin{split} P(S|\lambda) & = P(S_1,...,S_T|\lambda) \\ & = P(S_1)P(S_2|S_1)...P(S_T|S_{T-1}) \\ & = \pi_{S_1}a_{S_1S_2}...a_{S_{T-1}S_T} \end{split}$

\begin{aligned} P (O | S, λ) & = P (O_{1}, . . ., O_{T} | S_{1}, . . ., S_{T}, λ) \\ \underset{\to}{假 定 观 察 值 独 立} & = P (O_{1} | S_{1}) P (O_{2} | S_{2}) . . . P (O_{T} | S_{T}) \\ = b_{S_{1} O_{1}} . . . b_{S_{T} O_{T}} \end{aligned}

$\begin{split} P(O|S,\lambda) & = P(O_1,...,O_T|S_1,...,S_T,\lambda)\\ \underrightarrow{假定观察值独立} &= P(O_1|S_1)P(O_2|S_2)...P(O_T|S_T) \\ & = b_{S_1O_1}...b_{S_TO_T} \end{split}$

所以：

P (O | λ) = \sum_{S} π_{S_{1}} b_{S_{1} O_{1}} a_{S_{1} S_{2}} b_{S_{2} O_{2}} . . . a_{S_{T - 1} S_{T}} b_{S_{T} O_{T}}

$P(O|\lambda) = \sum_S \pi_{S_1} b_{S_1O_1}a_{S_1S_2}b_{S_2O_2}...a_{S_{T-1}S_T}b_{S_TO_T}$

由于其中序列S有N^T种可能，计算复杂度过高，引入

α_{t} (i) = P (O_{1} O_{2} . . . O_{t}, S_{t} = i | λ)

$\alpha_t(i) = P(O_1O_2...O_t,S_t = i | \lambda)$

则

α_{1} (i) = P (O_{1}, S_{t} = i | λ) = P (S_{1} = i | λ) P (O_{1} | S_{1} = i, λ) = π_{i} b_{i O_{1}}

$\alpha_1(i) = P(O_1,S_t = i | \lambda) = P(S_1=i|\lambda)P(O_1|S_1=i,\lambda) = \pi_i b_{iO_1}$

下证:

$α_{t + 1} (j) = P (O_{1} O_{2} . . . O_{t + 1}, S_{t + 1} = j | λ) = (\sum_{i = 1}^{N} α_{t} (i) \cdot a_{i j}) \cdot b_{j O_{t + 1}}$ $\alpha_{t+1}(j) = P(O_1O_2...O_{t+1},S_{t+1} = j | \lambda) = (\sum_{i=1}^N \alpha_t(i)\cdot a_{ij})\cdot b_{jO_{t+1}}$
证明：
$\begin{aligned} (\sum_{i = 1}^{N} α_{t} (i) \cdot a_{i j}) \cdot b_{j O_{t + 1}} \\ = [\sum_{i = 1}^{N} P (O_{1} . . . O_{t}, S_{t} = i | λ) \cdot P (S_{t + 1} = j | S_{t} = i)] \cdot P (O_{t + 1} | S_{t + 1} = j) \\ = (\sum_{i = 1}^{N} P (O_{1} . . . O_{t}, S_{t} = i, S_{t + 1} = j | λ)) \cdot P (O_{t + 1} | S_{t + 1} = j)) \\ = P (O_{1} . . . O_{t}, S_{t + 1} = j | λ) \cdot P (O_{t + 1} | S_{t + 1} = j)) \\ = P (O_{1} . . . O_{t + 1}, S_{t + 1} = j | λ) \end{aligned}$ $\begin{split} & (\sum_{i=1}^N \alpha_t(i)\cdot a_{ij})\cdot b_{jO_{t+1}} \\ &= [\sum_{i=1}^NP(O_1...O_t,S_t=i|\lambda)\cdot P(S_{t+1} = j | S_t = i)] \cdot P(O_{t+1} | S_{t+1} = j) \\ &= ( \sum_{i=1}^N P(O_1...O_t,S_t = i, S_{t+1} = j | \lambda))\cdot P(O_{t+1} | S_{t+1} = j))\\ & = P(O_1...O_t, S_{t+1} = j | \lambda)\cdot P(O_{t+1} | S_{t+1} = j))\\ & = P(O_1...O_{t+1}, S_{t+1} = j | \lambda) \end{split}$

所以：

α_{T} (i) = P (O_{1} O_{2} . . . O_{T}, S_{T} = i | λ)

$\alpha_{T}(i) = P(O_1O_2...O_T,S_T = i | \lambda)$

P (O | λ) = \sum_{i = 1}^{N} P (O_{1} . . . O_{T}, S_{T} = i | λ) = \sum_{i = 1}^{N} α_{T} (i)

$P(O|\lambda) = \sum_{i=1}^N P(O_1...O_T, S_T=i | \lambda) = \sum_{i=1}^N \alpha_T(i)$

复杂度为 $O(N^2T)$