【论文】R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection

【总结】以Faster R-CNN为基础:

①使用区域建议生成网络RPN生成包围文本的水平边界框;

② 对预测出的每一个水平边界框,提取其不同池化尺寸的池化特征,同时利用聚合特征预测文本/非文本得分、水平边界框和最小倾斜框;

③利用倾斜非极大值抑制NMS获得最终结果。

一、引言

主要成果:

  • 引入了一个新的用于任意方向场景文本的检测框架。RPN用于生成水平候选框,改进后的Fast R-CNN用于分类和倾斜框的预测优化;
  • 将任意方向的文本检测转化为一个多任务问题。该方法的核心是对文本得分、水平框和最小倾斜框的预测;
  • 为了充分利用文本特征,对每个RPN候选框进行了多个尺寸的ROI池化,然后连接特征用于检测;
  • 在Faster R-CNN的基础上增加了一个更小的anchor用于检测小文本,并使用倾斜非极大值抑制对候选结果进行后处理。

二、方法

1. 问题定义

倾斜目标表示方法:

  • (x1,y1,x2,y2,x3,y3,x4,y4)从左上角开始顺时针的四个点坐标,但有可能不是矩形;倾斜的矩形可以覆盖绝大部分的文本区域
  • (x1,y1,x2,y2,θ):带角度的矩形框,但是角度信息不稳定,易混淆
  • (x1,y1,x2,y2,h):从左上角开始顺时针的两个点坐标及高度,本文使用的表示法

2. 旋转区域CNN (R2CNN)

(1) RPN预测水平边界框

  • 水平框的文本大概有以下几种情况:①垂直方向;②水平方向;③对角线方向, RPN能够为任意方向的文本生成水平框形式的文本区域;
  • 针对小的文本场景,使用小尺寸的anchor:方式①是将Faster R-CNN原本(8, 16, 32)的anchor尺寸变换为更小的(4, 8, 16);方式②是在原anchor的基础上增加更小的尺度,即(4, 8, 16, 32),本实验证明方式①的效果更好

(2)不同池化尺寸的ROI Pooling

  • 使用三种不同尺寸的ROI Pooling捕获更多的文本特征,用于后续的文本检测:7×7,11×3(垂直方向),3×11(水平方向)

(3)文本/非文本得分、水平框以及倾斜最小框的回归

  • 基于RPN产生的候选框进行回归预测(同时预测水平和倾斜的,每个倾斜框都有一个水平框与之对应)

(4)倾斜的非极大值抑制

  • inclined NMS:两个倾斜框之间的IOU
  • 当两个倾斜文本距离很近时,普通的NMS会遗漏部分目标,但是倾斜的NMS能够同时检测出来

3. 训练目标 (多任务损失)

与Faster R-CNN的损失计算相同

(1)分类损失

(2)回归损失:水平框+倾斜框的损失,t是类别标签(文本时t=0, 背景时t=0),p是由softmax函数计算出的类别概率值。

猜你喜欢

转载自blog.csdn.net/MLH7M/article/details/121539993