Exploring the Capacity of Sequential-free Box Discretization Network for Omnidirectional Scene Text

Paper : https://arxiv.org/abs/1912.09629v1

Code : https://tinyurl.com/sbdnet

SBD首先将四边形边框离散为几个关键边缘，其中包含所有可能的水平和垂直位置。为了解码准确的顶点位置，提出了一种简单而有效的匹配程序来重构四边形边界框。

基本思想是利用与标签序列无关的不变表示形式（例如，最小x，最小y，最大x，最大y，平均中心点和对角线的相交点）来反推边界框坐标。为了简化参数化，SBD首先查找所有包含顶点的离散水平和垂直边。然后学习序列标记匹配类型以找出最佳拟合的四边形。摆脱了训练目标的模糊性。

贡献

第一个根据四边形边界框的顺序解决文本检测歧义的方法，这对于实现良好的检测精度至关重要
方法的灵活性使其可以利用几个关键的改进，这些改进对于进一步提高准确性至关重要。我们的方法在各种场景文本基准（包括ICDAR 2015 和MLT）上均达到了最先进的性能。此外，我们的方法在最近的 ICDAR2019 Robust Reading Challenge on Reading Chinese Text on Signboard 中赢得了文本检测任务的冠军
方法经过有效的改进，也可以推广到航空图像中的船舶检测。 TIoU-Hmean的显着改进进一步证明了我们方法的鲁棒性。

Method

所提出的方法是基于 MaskR-CNN 的。

主要组成：Sequential-free Box Discretization（SBD） + Math-Type Learning（MTL） + Re-scoring and Post Processing（RPP）

在这里插入图片描述

无序列边框离散化 SBD

在这里插入图片描述

目的：SBD block 将四边形框离散为8个关键边缘（KEs）。这些关键边缘由有序无关点组成，即最小x（ $x_{min}$ ）和y（ $y_{min}$ ）；第二个最小的x（ $x_2$ ）和y（ $y_2$ ）; 第二大x（ $x_3$ ）和y（ $y_3$ ）; 以及最大x（ $x_{max}$ ）和y（ $y_{max}$ ）。使用 x-KEs 和 y-KEs 分别表示 $x_{min}，x_2，x_3，x_{max}]$ 和 $y_{min}，y_2，y_3，y_{max}]$

原理： RoIAlign处理的 proposal 被送入SBD块，在该块中，特征图通过一系列卷积层；然后再对这些特征进行2倍的上采样，并将来自反卷积的输出特征图 $F_{out}$ 限制为 $M \times M$ 大小。然后，使用两个具有4个通道的 $1 \times M$ 和 $M \times 1$ 的卷积核来缩小水平和垂直特征分别为 x-KEs 和 y-KEs 。最后，通过最小化 $M$ 方向 SoftMax 输出上的交叉熵损失 $L_{ke}$ 来训练SBD模型，其中，将真实值 KEs 的对应位置对应到每个输出通道。

由于RoI的限制，SBD不能直接学习 x-KEs 和 y-KEs。原始的 Mask R-CNN 框架仅学习预测 RoI 区域内的目标对象，并且不能恢复 RoI 之外的对象部分丢失的像素。因此，为解决此问题，在训练时将 x-KEs 和 y-KEs 编码为 “half lines” 形式，x-KEs $x^i \in [x_{min}，x_2，x_3，x_{max}]$ ，y-KEs $y^i \in [y_{min}，y_2，y_3，y_{max}]$ 。
$x_{half}^i = \frac{x^i + x_{mean}}{2} \\ y_{half}^i = \frac{y^i + y_{mean}}{2}$
其中， $x_{mean}, y_{mean}$ 分别表示 x 轴和 y 轴的 gt 边界框的平均中心点的值。通过采用这样的训练策略，所提出的SBD块可以打破RoI的限制，即在大多数情况下，即使文本实例的边界位于RoIs之外，由于 $x_{half}$ 和 $y_{half}$ 落入RoIs区域，文本实例的完整也可以得到保证。

与Mask R-CNN类似，检测器是在多任务方式下进行训练的。所以损失函数由四部分下组成：
$L = L_{cls} + L_{box} + L_{mask} + L_{ke}$
$L_{cls}, L_{box}, L_{mask}$ 与 Mask RNN一样， $L_{ke}$ 表示学习关键边缘预测任务的交叉熵损失。

匹配类型学习(MTL)

在这里插入图片描述

SBD只是学习了预测 8 条线的数值，但是忽视了怎么在 x-KEs 和 y-KEs 之间进行连接。所以提出了 MTL 从关键边重构四边形边界框。

目的： SBD输出得到 4 个 x-KEs 和 4 个 y-KEs，每个 x-KEs 应该匹配一个 y-KEs 构成一个角点，然后得到四个角点就是最终的边界框的顶点的预测。构成的不同的角点会有不同的结果，总共有 $A_4^4 = 24$ 种可能。例如在下图中预测的匹配类型应该是 $x_{min}, y_3), (x_2, y_{max}), (x_{max}, y_2), (x_3, y_{min})]$ ，这就应该是最终的预测。

原理： 将SBD的两个生成 x-KEs 和 y-KEs 的特征图拼接在一起，通过 1x1 的卷积层后进行分类，24类分类任务。该方法中 MTL 头是通过最小化交叉熵损失来训练的。

在这里插入图片描述

重新评分和后处理(RPP)

检测器有时可以为错误正样本输出高置信度分数，为了抑制不合理的错误正样本，提出了 RPP。

在RPP中，首先基于8个KEs计算SBD得分 $S_{SBD}$ ：
$S_{SBD} = \frac{1}{K} \sum_{k=1}^K \max_{v^k} f(v^k)$
其中 $K = 8$ 是 KEs 的数量。尽管在大多数情况下， $S_{SBD}$ 的分布显示出一个单峰模式，但峰值仍显着低于1。因此，我们对每个关键边缘分数的4个相邻分数求和，以使其接近峰值，以避免置信度过低。假设 $v_k$ 是第 $k$ 个关键边的输出得分矢量，则函数 $f(v^k)$ 定义为峰值 $v_i$ 及其邻居的和：
$v^k = [v_1, v_2, \dots, \underbrace{v_{i-2}, v_{i-1}, v_i, v_{i+1}, v_{i+2}}_{f(v^k) = \sum_{p=max(i-2,1)}^{P=min(n,n+2)}(v_p)}, \dots,v_n]$
应当注意，如果峰值位于向量的头部或尾部，则相邻值的数量将小于4，因此在这种情况下，仅存在的邻居会被计数。最后，可以通过以下方法获得精确的置信度：
$score(\mathfrak{R}) = \frac{(2-\gamma)S_{box} + \gamma S_{SBD}}{2}$
其中 $\leq \gamma \leq 2$ 。 $S_{box}$ 是bbox的原始 Softmax置信度。通过将 $S_{SBD}$ 计入最终分数，它可以根据 8 个KEs的得分进行调整。

总结

SBD通过将点式预测分解为无序的关键边，解决了标签不一致的问题；使用 MLT 解码准确的顶点位置。

与一些基于分割的方法利用分割掩模直接重构边界框相比，MTL块可以学习几何约束，避免分割输出不准确造成的误报，这也减少了对分割任务的严重依赖性。

由于本文方法使用的四条横线和四条竖线的四个交点获得最终的边界框的顶点，所以只能检测旋转矩形，不能检测多边形以及任意形状的文本。