文本检测：Arbitrary-Oriented Scene Text Detection via Rotation Proposals（RRPN）

本文提出了一种基于文本倾斜角信息的旋转区域建议网络(RRPN)。然后利用角度信息进行包围盒回归，使提案在方向上更准确地融入文本区域。针对文本区域分类器的特点，提出了旋转感兴趣区域(RRoI)池化层，将任意方向的建议映射到特征图中。整个框架建立在基于区域的体系结构之上，与以往的文本检测系统相比，保证了任意文本检测的计算效率。

框架

（1）VGG-16作为主干网络卷积产生feature map；
（2）利用RRPN产生ROI，不仅预测候选区域，而且预测候选区域角度；
（3）RROI pooling最大池化得到ROI的特征，然后对每个特征进行二分类，判断是背景还是文字区域。
在这里插入图片描述

旋转包围框表示

5个参数，(x,y,h,w,θ)，x,y是矩形中心点坐标，h,w是矩形宽和高，θ是矩形框长边相对x轴正轴的旋转角。
由于在数据预处理阶段，会通过旋转训练原图像来进行数据增广．一旦图像旋转，相应的已标注的文本行区域信息也会跟着变化，这里就会涉及到一些数学知识．具体来说图像绕某个点旋转的具体步骤：1).将该旋转点移动到原点处；2).执行绕原点的操作；3).再将旋转点移回到原来的位置；也就是所有的旋转操作需要执行两次平移，一次旋转操作．
在这里插入图片描述

旋转anchor

在这里插入图片描述
本文提出的锚点R-anchor有三类策略：

scale 有8，16，32三种，表示文本行的大小
ratio 有1：2，1：5，1：8三种，表示文本行的宽高比
angle 有−π/6, 0, π/6 , π/3 , π/2 , 2π/3六种，表示提议框的旋转角

综合以上三类策略，特征图上每个点会生成3x3x6=54个候选框。

训练过程

（1）将与ground truth的IOU最高的或者大于0.72且与ground truth的夹角小于π/12的边框定为正例；
（2）将与ground truth的IOU小于0.3或者与ground truth的IOU大于0.7，但其与ground truth的夹角大于 π/12的定为反例；
对那些既不满足正样本也不满足负样本的候选区域，不参与训练。