Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes

Paper : https://arxiv.org/abs/1908.08207v1

通过语义分割可以直接从二维空间实现检测和识别。

Spatial Attention Module（SAM）

Mask TextSpotter 的识别模型对于处理二维空间中的常规文本和不规则文本更通用，并且同时考虑本地和全局文本信息会更有效
不同于之前的方法只能处理水平或者旋转文本，本文方法可以处理任意形状的文本
Mask TextSpotter 是第一个完全可端到端训练以进行文本发现的框架，它具有简单，平滑的训练方案，因此其检测模型和识别模型可充分受益于特征共享和联合优化。

在这里插入图片描述

Architecture

特征金字塔网络（FPN）作为主干网络，区域建议网络（RPN）生成文本建议框，Faster R-CNN 做边框回归，执行文本实例分割，字符分割和文本序列识别的mask 分支。

Text Instance and Character Segmentation

给定一个输入 RoI 特征（大小固定位 16 × 64），通过四个卷积核为 3 × 3 的卷积层和一个卷积核为 2 × 2 的反卷积层，然后分别输入到两个模块。通过卷积层生成 1 通道的文本实例图，精确定位文本区域的位置，不管文本实例的形状。字符分割模块，字符分割图直接通过共享特征图生成。输出的字符图为 $N_s × 32 × 128$ ，其中 $N_s$ 表示类别数，设置为37，包含 36 个数组和字母和 1 个背景。

Spatial Attentional Module（SAM）

字符分割图的缺点：首先，字符分割需要字符级别的标注监督训练。第二，需要一个后处理算法从分割图中生成文本序列。第三，字符的顺序不能从分割图中获得。因此，为了解决这些困难，使用 SAM 以端到端的方式从特征图中解码文本序列。

在这里插入图片描述

SAM 直接解码为两维的特征图，可以更好的表示任意形状。

首先，给定一个特征图，这个特征图可以是Mask TextSpotter中的 RoI 特征，也可以是独立识别模块中主干网络的特征图，把这个特征图通过双线性插值调整为固定的形状。然后，接着一个卷积层，一个最大池化层，一个卷积层。最后，使用有 RNNs 的空间注意力产生文本序列。

Position Embedding（位置嵌入）

位置嵌入特征图 $F_{pe}$ 是 $W_p+H_p, H_p, W_p)$ ，其中 $H_P, W_p$ 分别是 8 和 32。位置嵌入计算如下：
$F_{pe}^x(i, j, :) = onehot(i, W_p)$

$F_{pe}^y(i, j, :) = onehot(j, H_p)$

$F_{pe} = Concat(F_{pe}^x, F_{pe}^y)$

其中 $o n e h o t (i, K)$ 表示长度为 $K$ 的向量 $V$ ，索引为 $i$ 的元素的值设置为 1，其他的设置为 0。我们将位置嵌入特征图与原始输入特征图进行级联。级联特征图 $F$ 是 $C+H_p+W_p, H_p, W_p)$ ，其中 $C$ 是原始输入特征图的通道数，设置为 256。

Spatial Attention with RNNS

与一般注意力机制不同，此注意力在二维空间上学习注意力权重。假设反复执行 $T$ 步，则预测出一个序列字符 $(y_1, \dots, y_T)$ 。在 $t$ 步的时候，有三个输入：输入特征图，上一个隐藏状态 $s_{t-1}$ ，上一个预测的字符 $y_{t-1}$ .

首先，把 $s_{t-1}$ 从一个向量扩展为一个特征图 $S_{t-1}$ ，大小为 $V, H_p, W_p)$ ，其中 $V$ 是 RNN 的隐藏层大小，设置为256.
$S_{t-1} = expand\_dim(s_{t-1}, H_p, W_p)$
然后，计算注意力向量 $\alpha_t$ :
$e_t = W_t × \tanh(W_s × S_{t-1} + W_f × F + b)$

$\alpha_t(i, j) = exp(e_t(i, j)) / \sum_{i' = 1}^{H_p} \sum_{j'=1}^{W_p} exp(e_t(i', j'))$

其中 $e_t$ 和 $\alpha_t$ 大小为 $H_p, W_p)$ 。 $W_t, W_s, W_f, b$ 是训练权重和偏置。

接下来，我们可以通过将注意力权重应用于原始特征图 $F$ 来获取步骤 $t$ 的观察 $g_t$
$g_t = \sum_{i=1}^{H_p}\sum_{j=1}^{W_p} \alpha_t (i,j) × F(i,j)$
RNN 的输入 $r_t$ 是把 $g_t$ 和上一个预测字符的字符嵌入 $y_{t-1}$ 级联起来的
$f(y_{t-1}) = W_y × onehot (y_{t-1}, N_c) + b_y$

$r_t = concat(g_t, f(y_{t-1}))$

其中 $W_y, b_y$ 是训练的线性转换的权重和偏置。 $N_c$ 是类别数，文中是 37。

把 $r_t$ 和上一个隐藏状态 $s_{t-1}$ 输入到 RNN 中，
$x_t, s_t) = rnn(s_{t-1}, r_t)$
最后，使用线性转换和 softmax 函数计算在 $t$ 步的条件概率
$p(y_t) = softmax(W_o × x_t + b_o)$

$y_t \sim p(y_t)$

Standalone Recognition Model（独立识别模块）

Label Generation

将多边形转换为覆盖此多边形的最小面积的矩形。给定 proposal $r$ ，找到与之最匹配的水平矩形，也就可以找到对应的多边形和字符位置。然后，匹配的多边形和字符框将移动并调整其大小，以使 proposa l与 H×W 的目标图对齐，如下所示：
$B_x = (B_{x_0} - min(r_x)) × W / (max(r_x) - min(r_x))$

$B_y = (B_{y_0} - min(r_y)) × W / (max(r_y) - min(r_y))$

$B_x, B_y)$ 和 $B_{x0}, B_{y0})$ 分别是更新后的和原始的多边形的顶点， $r_x, r_y)$ 是proposal $r$ 的顶点。

目标文本实例图

字符定位图

Optimization

$L_{rpn} + \alpha_1 L_{rcnn} + \alpha_2 L_{mask}$

$L_{mask}$ 包含文本实例分割损失 $L_{ins}$ ，字符分割损失 $L_{seg}$ 和序列识别损失 $L_{seq}$
$L_{mask} = L_{ins} + \beta_1 L_{seg} + \beta_2 L_{seq}$
$L_{ins}$ 是一个平均二进交叉熵损失， $L_{sqg}$ 是权重空间 soft-max 损失
$L_{seg} = - \frac{1}{N} \sum_{n=1}^{N}W_n\sum_{c=0}^{N_c-1}Y_{n,c}log(\frac{e^{X_{n,c}}}{\sum_{k=0}^{N_c -1}e^{X_{n,k}}}))$
$N_c$ 是类别数， $N$ 是每个图的像素的数量， $Y$ 是输出图 $X$ 对应的真实值。使用权重 $W$ 平衡正样本和背景样本的的损失值。使背景像素的数量为 $N_{neg}$ ，背景类索引为 0，权重可以计算：
$W_i = \begin{cases} 1 & \text{if $Y_{i,0}$ = 1}, \\ N_{neg} / (N - N_{neg}) & \text{otherwise} \end{cases}$
$L_{seq}$ 如下计算：
$L_{seq} = - \sum_{t= 1}^{T} \log(P(y_t))$
$T$ 是序列的长度

$\alpha_1, \alpha_2, \beta_1$ 设置为 $1.0, $ $\beta_2$ 设置为 $0.2$

Inference

首先，输入一张测试图片，获得 Faster R-CNN 的输出，使用 NMS 过滤掉多余的候选框；然后，将剩下的候选框输入到 mask 分支生成文本实例图，字符图，文本序列；最后可以通过计算在文本实例图中的文本区域的轮廓得到预测的多边形。除此之外，文本序列也可以使用解码字符分割图和 SAM 的输出获得。

另外，在用词典进行推理时，提出了一种加权编辑距离算法来寻找最佳匹配词。

Decoding

使用 pixel voting 算法把预测的字符图解码为字符序列。首先，以 0.75 的阈值，二值化背景图。然后根据二值图中的连接区域获得全部字符区域，计算所有字符图中的每个区域的均值，这个值就是这个字符串的置信度。平均值最大的字符类将分配给该区域。之后，根据英语的写作习惯从左到右进行分组。

SAM 两种解码方式：贪婪算法和 Beam Search

因为有两个识别结果，可以选择置信度高的一个作为最终的识别结果

Weighted Edit Distance