1. 前言

这篇文章是我最早读的模型类文章，但是当时还没萌生出写博客复习总结的想法。还好这个想法出现的不晚，现在是第四篇模型类文章，刚好拿来复习一下。当时读的时候就觉得作者字里行间充满了自信（可能是因为EAST模型的效果真的很好吧），EAST这名字又有种东方的神秘气息（误），话不多说，还是开始介绍吧。
EAST全名an Efficient and Accuracy Scene Text detection pipeline，高效、准确的场景文本识别管道（不得不说这缩写真的好中二啊）。该Pipeline直接预测图像中任意方向和矩形形状的文本或文本行，通过单个神经网络消除不必要的中间步骤（例如候选聚合和单词分割）。
三个贡献：

提出了一个由两阶段组成的场景文本检测方法：FCN阶段和NMS阶段。FCN直接生成文本区域，不包括冗余和耗时的中间步骤。
该pipeline可灵活生成wordlevel或line level预测，其几何形状可为旋转框或矩形。
所提出的算法在准确性和速度上明显优于最先进的方法。

常规的文本检测Pipeline都含有很多中间步骤，而这些中间步骤会导致误差的累积，性能次优，且处理时间较长。本文提出的方法，只有FCN和NMS两个中间步骤，放弃了不必要的中间组件和步骤，并允许进行端到端的训练和优化。由此产生的框架是轻量级的单个神经网络，在性能和速度上都明显优于所有以前的方法。

2. 实现

该算法的关键部分是一个神经网络模型，该模型通过训练直接预测图形中的文本实例及其几何形状的存在。该模型是一种完全卷积神经网络，适用于文本检测，输出密集的每像素的词或文本行。这就消除了中间步骤如候选人提议,文本区域形成和分区。后处理步骤仅包括阈值化和预测几何形状的NMS。由于该检测器是一种高效、准确的场景文本检测管道，故将其命名EAST。

2.1 Pipeline

图像被送到FCN中并且生成像素级的文本分数特征图和几何图形特征图的多个通道。其中一个预测通道是分数特征图，其像素值范围是[0,1]。剩下的通道表示从每个像素视图中包含单词的几何图形。分数代表在同一位置预测的几何形状的置信度。
两种文本区域的几何形状：旋转框（RBOX）和矩形（QUAD）。

2.2 网络设计

在这里插入图片描述

特征提取层：先用通用网络如VGG16,Pvanet,Resnet等作为基础网络（文中用的是Pvanet），用于特征提取。抽取不同大小的Feature map(输出图像的 $\frac{1}{32},\frac{1}{16},\frac{1}{8},\frac{1}{4}$ 大小)，用以应付多尺度变换问题；
特征融合层：

其中 $g_{i}$ 是合并基础， $h_{i}$ 是合并的特征图，运算符[·;·]表示沿通道轴的连接。在每个合并阶段，来自最后一个阶段的特征图首先被输入到一个反池化层来扩大其大小，然后与当前特征图进行连接。接下来，通过conv1×1瓶颈减少通道数量和计算量，接下来是conv3×3，将信息融合以最终产生该合并阶段的输出。在最后一个合并阶段之后，conv3×3层会生成合并分支的最终特征图并将其送到输出层。
输出层：最终的输出层包含若干个conv1×1操作，以将32个通道的特征图投影到1个通道score 特征图Fs和一个多通道几何图形Fg。几何形状输出只有RBOX或QUAD两种，如下表所示：

AABB4个通道分别表示从像素位置到矩形的顶部，右侧，底部，左侧边界的4个距离；
对于RBOX的几何形状由4个通道的轴对齐边界框（AABB）R和1个通道的旋转角度θ表示；
QUAD的8个数字表示从矩形的四个顶点到像素位置的坐标偏移。由于每个距离偏移量都包含两个数字（Δxi;Δyi），因此几何形状输出包含8个通道。

2.3 标签生成

在这里插入图片描述

四边形Score Map生成（图a,b）
Score Maps是原始四边形的缩小版。 $r_{i}$ 是相对 $p_{i}$ 的参考长度，D( $p_{i}$ , $p_{j}$ )是pi和pj的L2距离：

先缩小长对边，再缩小短对边。
Geometry Map生成（图c~e）
对于其文本区域以QUAD格式标注的数据集（例如ICDAR 2015），我们首先生成一个旋转矩形，以最小面积覆盖该区域。然后，对于每个有正分数的像素，我们计算它与文本框4个边界的距离，并将它们放到RBOX ground truth的4个通道中。对于QUAD ground truth，8通道几何图形每个像素的正分数值是它与四边形4个顶点的坐标偏移。

2.4 损失函数

在这里插入图片描述
$\lambda _{g}$ 是 $L_{g}$ 的权重，在本实验中设置为1。

Score Map的损失

其中

这是一种平衡交叉熵损失。
几何损失
由于需要尺度不变的文本几何预测，所以在RBOX回归的AABB部分采用IoU损失，QUAD回归采用尺度归一化平滑L1损失。

2.5 训练

使用ADAM优化器对网络进行端到端训练。为了加快学习速度，我们将输入图像大小固定在512x512，形成一个24尺寸的小批量。ADAM的学习率从1e-3开始，每27300个小批量衰减到十分之一，在1e-5停止。网络被训练直到性能停止改善。

2.6 位置感知的NMS

在这里插入图片描述
在假设来自附近像素的几何图形倾向于高度相关的情况下，提出逐行合并几何图形，并且在合并同一行中的几何图形时，我们将迭代合并当前遇到的几何图形与最后一个合并图形。这种改进的技术在场景中以O(n)运行。合并的四边形坐标是通过两个给定四边形的得分进行加权平均的。是平均而非选择，充当了投票机制，采取这种方法可以将所有框的坐标信息都加以利用，而不像常规NMS一样直接弃掉得分低的框，也许会丢失信息。