RRPN:Arbitrary-Oriented Scene Text Detection via Rotation Proposals

源论文地址::https://arxiv.org/pdf/1703.01086.pdf
IEEE Transactions on Multimedia Year: 2018 | Volume: 20, Issue: 11 | Journal Article | Publisher: IEEE
Cited by: Papers (125)

Abstract

We present the Rotation Region Proposal Networks (RRPN), which are designed to generate inclined proposals with text orientation angle information.

与以往基于分段的框架不同,我们的框架具有使用基于区域的方法预测文本行方向的能力;因此,建议可以更好地适应文本区域,并且远程文本区域可以很容易地纠正,并且更方便文本阅读。 新的组件,如RROI池层和旋转建议的学习,被纳入基于区域建议的体系结构[20],这确保了文本检测与基于分割的文本检测系统相比的计算效率。

我们还提出了改进具有任意方向的区域提案的新策略,以改进2次性能的任意面向文本检测。

我们将我们的框架应用于三个真实世界的文本检测数据集,即MSRA-TD500[21]、ICDAR2013[22]和ICDAR2015[23],发现与以前的方法相比,它更准确、更有效。

创新点:

一,Rotation Region Proposal:

在这里插入图片描述
相比较RPN只需要预测四个量(x,y,h,w),RRPN需要预测五个量(x, y, h, w, θ)
在这里插入图片描述

二,Skew IoU Loss

在这里插入图片描述
在R3Det文章中表明,对于旋转目标检测,Smooth L1 Loss不适合旋转目标检测,在旋转目标检测中公认SkewIoU Loss .
在这里插入图片描述

三,RROI pooling

RROI pooling用来对任意方向任意大小的region提取固定尺寸的特征,之前的ROI pooling只能对水平矩形进行特征提取。
在这里插入图片描述

四,Skew-NMS

Skew-NMS不能按照单纯的IOU>0.7视为正样本,因为有角度方向的约束,很可能和真实包围框最贴合的anchor框与真实包围框直接的IOU<0.7,这类样本如果直接抛弃而不参与训练会对结果造成损失,因此不能单纯的以IOU某个阈值进行NMS处理。

Skew-NMS consists of 2 phases:

(i) keep the max IoU for proposals with an IoU larger than 0.7;

(ii) if all proposals have an IoU in the range [0.3, 0.7], keep the proposal

with the minimum angle difference with respect to the ground truth (the angle difference should be less than π/12 ).

整个算法的框架:

在这里插入图片描述

整个算法框架基于Faster RCNN进行修改的,具体创新之处已经在上面说明了,采用了RRPN,RROI pooling,和Skew-NMS。
算法缺陷之处在于损失函数仍采用交叉熵分类损失和Smooth L1包围框回归损失。

在这里插入图片描述

在2019年R3Det论文中已经指出,对于旋转目标检测,Smooth L1 Loss不适合旋转目标检测,在旋转目标检测中公认SkewIoU Loss。所以,我认为更换Smooth L1损失函数能够使得RRPN的模型有所提升。

实验结果

在文本检测数据集ICDAR2013上做实验,对比Faster-RCNN能够提升15%的mAP值。
在这里插入图片描述
推荐博客:
https://blog.csdn.net/dexterod/article/details/106048699

猜你喜欢

转载自blog.csdn.net/practical_sharp/article/details/114408356
今日推荐