前言

对于自然场景图像中任意形状的文本检测，在基于分割的方法中，仍然存在两个问题：一个问题是相邻文本实例无法有效分离，需要复杂的后处理；另一个问题是基于分割的方法依赖于轮廓检测的准确性，检测出的轮廓存在很多缺陷和噪声。因此，该论文提出了一种用于任意形状文本检测的自适应候选边界网络：作者提出先得到文本实例的粗边框（会略小于真实文本区域）以解决文本实例粘连的问题，同时设计边界自适应调整网络，使得粗边框调整进行迭代细化，最终接近真实边框。

一、方法设计

1.网络结构

图1 TextBPN网络结构图

该网络结构包括以ResNet-50为骨干网络形成的类似特征金字塔结构生成Fs(图1中未画出该结构)、边界建议网络和自适应边界形变网络三个部分：

1)多层特征融合策略：将骨干网络的多层卷积通过上采样和拼接进行特征融合成Fs；

2)边框建议模块：有多层空洞卷积组成，包括两个不同空洞率的3 x 3卷积层和一个1 x 1卷积层，将多层融合的特征生成分类图、距离场图和方向场图，即先验信息Fp部分；

3)自适应边界形变网络：通过GCN和RNN对边界拓扑结构和序列上下文进行学习，通过迭代完成粗边框的细化。

（1）多层特征融合策略

将深层的特征通过上采样和上一层特征一样的尺寸进行cat操作，该模块具体网络结构如图2所示：

图2 类似FPN网络结构图

（2）边框建议模块

通过多层空洞卷积获得分类图、距离场图和方向场图，具体如图3所示

分类图包含每一个像素（文本/非文本）的分类置信度

方向场图( $\small V$ )由一个二维单位向量 $\small \left ( \vec{x},\vec{y} \right )$ 组成，如图3(c)所示，表示边界内每个文本像素到边界上最近像素的方向，对于文本实例 $\small \mathbb{T}$ 中的每个像素 $\small p$ ，在文本框 $\small \mathbb{T}$ 上找到最近的文本边界像素 $\small B_{p}$ ，然后计算每个像素的单位向量 $\small V_{gt}\left ( p \right )$ ，文本实例 $\small \mathbb{T}$ 以外的像素在方向场中设置为 $\small \left ( 0,0 \right )$ 。

$\small V_{gt}\left ( p \right )=\left\{\begin{matrix} \overrightarrow{B_{p}p}/\left | \overrightarrow{B_{p}p} \right |,\; \; \; p\in\mathbb{T} \\ \left ( 0,0 \right ),\; \; \; \; \; \; \; \; \; \; \; \; p\notin \mathbb{T} \end{matrix}\right.$

距离场图( $\small D$ )一个归一化的距离图，即表示文本像素 $p$ 到文本框 $\small \mathbb{T}$ 上找到最近的文本边界像素 $\small B_{p}$ 的归一化距离 $D_{gt}\left ( p \right )$ ，文本实例 $\small \mathbb{T}$ 以外的像素在距离场中设置 $\small 0$ 。其中 $\small L$ 表示像素 $\small p$ 所在文本实例 $\small \mathbb{T}$ 的尺度。

$\small D_{gt}\left ( p \right )=\left\{\begin{matrix} \left | \overrightarrow{B_{p}p} \right |/L,\; \; \; p\in \mathbb{T}\\ \; \; \; \; \; 0,\; \; \; \; \; \; \; \; \; \; p\notin \mathbb{T} \end{matrix}\right. \; \; \; \; \; \; \; \; \; \; \; \; \; \; \;(1)$

$\small \L =max\left (D _{gt}\left ( p \right ) \right )\; \; \; \; \; \; \; \; \; \; \; \; \;\; \; \; \; \; \; \;\; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; \; (2)$

图3 先验信息特征图展示

在边框建议模块中，有了距离场图( $\small D$ )，可以通过设定一个固定的阈值 $\small th_{d}$ 来生成候选边框建议，在图4中，原图(a)通过距离场图得到可能的文本框，但是存在错误的检测，如图(b)所示，再根据分类图来计算每个候选边框的平均置信度，当得到的Proposal score低于设定的置信度阈值 $\small th_{s}$ 就进行舍弃，最终得到所有的建议文本框。

图4 建议文本框的生成示意流程图

（3）自适应边界形变模块

本模块主要的功能是通过文本框中的拓扑结构和序列上下文进行学习，对于获得的粗边框进行迭代细化调整，以得到真正的文本框实例(个人理解类似完成了后处理的功能)，这部分结构主要是在编码器部分引入了GCN和RNN，同时有一个分支使用一个1 x 1的卷积层形成了类似ResNet的残差结构，如图5所示，最后在译码器部分使用带有ReLU的三层1 x 1的卷积组成。为了对候选框进行细化，论文通过迭代处理(源码中将该模块代码进行循环拼接了3次)。

图5 自适应形变模块结构图

在得到建议候选框之后，需要得到坐标点，本论文中通过对建议候选框使用候选框进行边界选择，并按照周长划分为20个等长部分，分别取得20个坐标点，作为候选框坐标点。（在源码的训练中，是通过标注文本框生成的建议候选框20个坐标点来进行迭代训练）

而如图6所示，通过坐标点需要生成Node feature matrix来作为自适应形变模块的输入，具体操作如下：在图2中，可以看到，由CNN骨干网络获得的32-D共享特征Fs和通过多层空洞卷积得到的4-D先验特征进行concat一起组成cnn_feature，即F。同时结合20个坐标点在F中对应的位置提取每一个控制点(坐标点)的特征 $f_{i}=concat\left ( {F_{s}} \left ( x_{i}, y_{i}\right ),{F_{p}} \left ( x_{i}, y_{i}\right )\right )$ ，最终得到了候选边界特征矩阵X(size:N x C)。

图6 整个自适应候选框形变网络流程示意图

2.损失函数

网络的损失函数定义为

$\L =\L _{B_{p}}+\frac{\lambda \ast \L _{B_{d}}}{1+e^{\left ( i-eps \right )/eps}}$

其中 $\L _{B_{p}}$ 为边框建议损失， $\L _{B_{p}}$ 为自适应边界形变模型的损失，eps表示训练的最大epoch数，而 $\lambda$ 设置为0.1。

$\L _{B_{p}}$ 包含交叉熵分类损失的像素分类损失 $\L _{cls}$ ，以及回归损失的距离损失 $\L _{D}$ 和L2-范式距离和角度距离在方向场构成的损失 $\L _{V}$ ，而 $\alpha$ =3：

$\L _{B_{p}}=\L _{cls}+\alpha \ast \L _{D}+\L _{V}$

$\L _{B_{d}}$ 为点匹配损失，主要是计算预测点和真值点之间的损失，每一个文本实例的损失为 $\small \L \left ( p,p^{'} \right )$ ，因为在一张图像中有多个文本实例，所以需要计算平均损失：

$\small \L _{B_{d}}=\frac{1}{\mathbb{T}}\sum_{i=0}^{N-1}\L \left ( p,p^{'} \right )$

二、实验结果

1.消融实验

（1）自适应候选框形变模块

在Total-Text和CTW1500上进行实验，采用了四种不同类型的编码器：FC和 $\small Conv_{1\times 1}$ 、RNN、circular convolution、graph convolution(GCN)进行实验，实验结果如表1所示，论文所提出的自适应形变网络渠道最好的效果。