论文阅读和分析：HMM-BASED HANDWRITTEN SYMBOL RECOGNITION USING ON-LINE AND OFF-LINE FEATURES

HMER论文系列
1、论文阅读和分析：When Counting Meets HMER Counting-Aware Network for HMER_KPer_Yang的博客-CSDN博客
2、论文阅读和分析：Syntax-Aware Network for Handwritten Mathematical Expression Recognition_KPer_Yang的博客-CSDN博客
3、论文阅读和分析：A Tree-Structured Decoder for Image-to-Markup Generation_KPer_Yang的博客-CSDN博客
4、论文阅读和分析：Watch, attend and parse An end-to-end neural network based approach to HMER_KPer_Yang的博客-CSDN博客
5、论文阅读和分析：Multi-Scale Attention with Dense Encoder for Handwritten Mathematical Expression Recognition_KPer_Yang的博客-CSDN博客
6、论文阅读和分析：Mathematical formula recognition using graph grammar_KPer_Yang的博客-CSDN博客
7、论文阅读和分析：Hybrid Mathematical Symbol Recognition using Support Vector Machines_KPer_Yang的博客-CSDN博客
8、论文阅读和分析：HMM-BASED HANDWRITTEN SYMBOL RECOGNITION USING ON-LINE AND OFF-LINE FEATURES_KPer_Yang的博客-CSDN博客

内容：读论文，同时复习HMM

主要贡献：

1、提出使用HMM模型架构进行字符识别；

复习HMM模型

下面HMM引用：[GitHub - SmirkCao/Lihang: Statistical learning methods, 统计学习方法(第2版)李航] [笔记, 代码, notebook, 参考文献, Errata, lihang]

马尔可夫链

随机过程有两个维度的不确定性。马尔可夫为了简化问题，提出了一种简化的假设，即随机过程中各个状态 $s_t$ 的概率分布，只与它的前一个状态 $s_{t-1}$ 有关, 即 $P(s_t|s_1, s_2, s_3, \dots,s_{t-1})=P(s_t|s_{t-1})$

这个假设后来被称为马尔可夫假设，而符合这个假设的随机过程则称为马尔可夫过程，也称为马尔可夫链。

数学之美，吴军

$P(s_t|s_1, s_2, s_3, \dots,s_{t-1})=P(s_t|s_{t-1})$

时间和状态取值都是离散的马尔可夫过程也称为马尔可夫链。

隐含马尔可夫模型
$P(s_1,s_2,s_3,\dots,o_1,o_2,o_3,\dots)=\prod_tP(s_t|s_{t-1})\cdot P(o_t|s_t)$

隐含的是状态 $s$

隐含马尔可夫模型由初始概率分布(向量 $\pi$ ), 状态转移概率分布(矩阵 $A$ )以及观测概率分布(矩阵 $B$ )确定.

隐马尔可夫模型 $\lambda$ 可以用三元符号表示, 即
$\lambda = (A, B, \pi)$

其中 $A,B,\pi$ 称为模型三要素。

具体实现的过程中，如果观测的概率分布是定的，那么 $B$ 就是确定的。在hhmlearn中，实现了三种概率分布的HMM模型：MultinominalHMM，GaussianHMM，GMMHMM。还可以定义不同的emission probabilities，生成不同的HMM模型。

两个基本假设

齐次马尔科夫假设(状态)
$P(i_t|i_{t-1},o_{t-1},\dots,i_1,o_1) = P(i_t|i_{t-1}), t=1,2,\dots,T$
注意书里这部分的描述

假设隐藏的马尔可夫链在任意时刻 $t$ 的状态 $\rightarrow i_t$

只依赖于其前一时刻的状态 $\rightarrow i_{t-1}$

与其他时刻的状态 $\rightarrow i_{t-1, \dots, i_1}$

及观测无关 $\rightarrow o_{t-1},\dots,o_1$

也与时刻 $t$ 无关 $\rightarrow t=1,2,\dots,T$
观测独立性假设(观测)
$P(o_t|i_T,o_T,i_{T-1},o_{T-1},\dots,i_{t+1},o_{t+1},i_t,i_{t-1},o_{t-1},\dots,i_1,o_1)=P(o_t|i_t)$
书里这部分描述如下

假设任意时刻 $t$ 的观测 $\rightarrow o_t$

只依赖于该时刻的马尔可夫链的状态 $\rightarrow i_t$

与其他观测 $\rightarrow o_T,o_{T-1},\dots,o_{t+1},o_{t-1},\dots,o_1$

及状态无关 $\rightarrow i_T,i_{T-1},\dots,i_{t+1},i_{t-1},\dots,i_1$

注：用知乎一张图就说的很明白：

引用：HMM隐马尔可夫模型的例子、原理、计算和应用 - 知乎 (zhihu.com)

在这里插入图片描述

概率计算算法：前向概率与后向概率

给定马尔可夫模型 $\lambda$ , 定义到时刻 $t$ 部分观测序列为 $o_1, o_2, \dots ,o_t$ , 且状态 $q_i$ 的概率为前向概率, 记作
$\alpha_t(i)=P(o_1,o_2,\dots,o_t,i_t=q_i|\lambda)$
给定马尔可夫模型 $\lambda$ , 定义到时刻 $t$ 状态为 $q_i$ 的条件下, 从 $t + 1$ 到 $T$ 的部分观测序列为 $o_{t+1}, o_{t+2}, \dots ,o_T$ 的概率为后向概率, 记作
$\beta_t(i)=P(o_{t+1},o_{t+2},\dots,o_T|i_t=q_i, \lambda)$
$\color{red} 关于\alpha 和\beta 这两个公式, 仔细看下, 细心理解.$ 前向概率从前往后递推，后向概率从后向前递推。

前向算法

输入: $\lambda , O$

输出: $P(O|\lambda)$

初值
$\alpha_1(i)=\pi_ib_i(o_1), i=1,2,\dots,N$
观测值 $o_1$ , $i$ 的含义是对应状态 $q_i$

这里 $\alpha$ 是 $N$ 维向量, 和状态集合 $Q$ 的大小 $N$ 有关系. $\alpha$ 是个联合概率.

递推
$\color{red}\alpha_{t+1}(i) = \left[\sum\limits_{j=1}^N\alpha_t(j)a_{ji}\right]b_i(o_{t+1})\color{black}, \ i=1,2,\dots,N, \ t = 1,2,\dots,T-1$
转移矩阵 $A$ 维度 $N\times N$ , 观测矩阵 $B$ 维度 $N\times M$ , 具体的观测值 $o$ 可以表示成one-hot形式, 维度 $M\times1$ , 所以 $\alpha$ 的维度是 $\alpha = \alpha ABo=1\times N\times N\times N \times N\times M \times M\times N=1\times N$

终止
$P(O|\lambda)=\sum\limits_{i=1}^N\alpha_T(i)=\color{red}\sum\limits_{i=1}^N\alpha_T(i)\beta_T(i)$
注意, 这里 $O\rightarrow (o_1, o_2, o_3,\dots, o_t)$ , $\alpha_i$ 见前面前向概率的定义 $P(o_1,o_2,\dots,o_t,i_t=q_i|\lambda)$ , 所以, 对 $i$ 求和能把联合概率中的 $I$ 消掉.

前向算法的关键是其局部计算前向概率, 然后利用路径结构将前向概率"递推"到全局.减少计算量的原因在于每一次计算直接引用前一时刻的计算结果, 避免重复计算.

前向算法计算 $P(O|\lambda)$ 的复杂度是 $O(N^2T)$ 阶的，直接计算的复杂度是 $O(TN^T)$ 阶，所以 $T = 2$ 时候并没什么改善。

红色部分为后补充了 $\beta_T(i)$ 项，这项为1,此处注意和后面的后向概率对比。

后向算法

输入: $\lambda , O$
输出: $P(O|\lambda)$

终值

$\beta_T(i)=1, i=1,2,\dots,N$

在 $t = T$ 时刻, 观测序列已经确定.

递推

$\color{red}\beta_t(i)=\sum\limits_{j=1}^Na_{ij}b_j(o_{t+1})\beta_{t+1}(j)\color{black}, i=1,2,\dots,N, t=T-1, T-2,\dots,1$

从后往前推
$\beta = ABo\beta = N \times N \times N \times M \times M \times N \times N \times 1 = N \times 1$

$P(O|\lambda)=\sum\limits_{i=1}^N\pi_ib_i(o_1)\beta_1(i)=\color{red}\sum\limits_{i=1}\alpha_1(i)\beta_1(i)$

这里需要注意下，按照后向算法， $\beta$ 在递推过程中会越来越小，如果层数较多，怕是 $P(O|\lambda)$ 会消失
另外一个要注意的点 $\color{red}o_{t+1}\beta_{t+1}$
注意，红色部分为后补充，结合前面的前向概率最后的红色部分一起理解。

小结

求解的都是观测序列概率
观测序列概率 $P(O|\lambda)$ 统一写成
$P(O|\lambda)=\sum_{i=1}^N\sum_{j=1}^N\alpha_t(i)a_{ij}b_j(o_{t+1}\beta_{t+1}(j)),\ t=1,2,\dots,T-1$

$P(O|\lambda) = \alpha ABo\beta$

其实前向和后向不是为了求整个序列 $O$ 的概率，是为了求中间的某个点 $t$ ，前向后向主要是有这个关系:
$\alpha_t(i)\beta_t(i)=P(i_t=q_i,O|\lambda)$
当 $t = 1$ 或者 $t = T - 1$ 的时候，单独用后向和前向就可以求得 $P(O|\lambda)$ ，分别利用前向和后向算法均可以求解 $P(O|\lambda)$ ，结果一致。

利用上述关系可以得到下面一些概率和期望，这些概率和期望的表达式在后面估计模型参数的时候有应用。

概率与期望

输入模型 $\lambda$ 与观测 $O$ ，输出在时刻 $t$ 处于状态 $q_i$ 的概率 $\gamma_t(i)$
输入模型 $\lambda$ 与观测 $O$ ，输出在时刻 $t$ 处于状态 $q_i$ 且在时刻 $t + 1$ 处于状态 $q_j$ 的概率 $\xi_t(i,j)$
在观测 $O$ 下状态 $i$ 出现的期望值
在观测 $O$ 下状态 $i$ 转移的期望值
在观测 $O$ 下状态 $i$ 转移到状态 $j$ 的期望值

模型架构

使用三个HMM模型进行分类

在这里插入图片描述

${x_o\}$ ：在线特征； ${x_v\}$ ：离线特征； ${x_h\}$ ：离线特征；

注：这篇论文的特征基本是参考其他另外两篇的，只是做了HMM的多层架构进行集成，特征方法在另外两篇论文再学习。

参考：

1、《HMM-BASED HANDWRITTEN SYMBOL RECOGNITION USING ON-LINE AND OFF-LINE FEATURES》
2、HMM隐马尔可夫模型的例子、原理、计算和应用 - 知乎 (zhihu.com)