文本检测:Arbitrary-Oriented Scene Text Detection via Rotation Proposals(RRPN)

本文提出了一种基于文本倾斜角信息的旋转区域建议网络(RRPN)。然后利用角度信息进行包围盒回归,使提案在方向上更准确地融入文本区域。针对文本区域分类器的特点,提出了旋转感兴趣区域(RRoI)池化层,将任意方向的建议映射到特征图中。整个框架建立在基于区域的体系结构之上,与以往的文本检测系统相比,保证了任意文本检测的计算效率。

框架

(1)VGG-16作为主干网络卷积产生feature map;
(2)利用RRPN产生ROI,不仅预测候选区域,而且预测候选区域角度;
(3)RROI pooling最大池化得到ROI的特征,然后对每个特征进行二分类,判断是背景还是文字区域。
在这里插入图片描述

旋转包围框表示

5个参数,(x,y,h,w,θ),x,y是矩形中心点坐标,h,w是矩形宽和高,θ是矩形框长边相对x轴正轴的旋转角。
由于在数据预处理阶段,会通过旋转训练原图像来进行数据增广.一旦图像旋转,相应的已标注的文本行区域信息也会跟着变化,这里就会涉及到一些数学知识.具体来说图像绕某个点旋转的具体步骤:1).将该旋转点移动到原点处;2).执行绕原点的操作;3).再将旋转点移回到原来的位置;也就是 所有的旋转操作需要执行两次平移,一次旋转操作.
在这里插入图片描述

旋转anchor

在这里插入图片描述
本文提出的锚点R-anchor有三类策略:

  • scale 有8,16,32三种,表示文本行的大小
  • ratio 有1:2,1:5,1:8三种,表示文本行的宽高比
  • angle 有−π/6, 0, π/6 , π/3 , π/2 , 2π/3​六种,表示提议框的旋转角

综合以上三类策略,特征图上每个点会生成3x3x6=54个候选框。

训练过程

(1)将与ground truth的IOU最高的或者大于0.72且与ground truth的夹角小于π/12的边框定为正例;
(2)将与ground truth的IOU小于0.3或者与ground truth的IOU大于0.7,但其与ground truth的夹角大于 π/12的定为反例;
对那些既不满足正样本也不满足负样本的候选区域,不参与训练。

计算损失

总体方法与faster R-CNN基本相同
在这里插入图片描述

倾斜IOU

由于本文使用的是倾斜的候选框,所以基于水平候选框的IOU计算方法不再适应,因此本提出了倾斜IOU的计算方法,其主要思路就是将两个矩形框相交的点和矩形框内的点,然后将这些点集进行顺时针排序,使用三角形剖分法计算IOU.具体的算法步骤如下:

倾斜NMS

倾斜NMS不仅考虑IOU,而且考虑夹角,见训练过程。

RROI pooling

如下图7,先分成大小相同的单元格,然后进行最大池化。
在这里插入图片描述在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_41332469/article/details/90379403
今日推荐