R2-CNN文本检测（Rotational Region CNN）

总体框架

文章利用Faster R-CNN作为基本框架。
（1）使用RPN生成轴向对齐的包围框，包围着面向任意方向的文本；
（2）对RPN提出的每一个文本框，用不同的pooled size ( 7 × 7, 11 ×3, 3 × 11 ) 进行池化，并利用连接的特征同时预测文本/非文本得分、轴向对齐框和倾斜最小面积框；
（3）多任务损失更新参数（得分+轴向框+倾斜框）；
（3）最后，使用倾斜NMS来获得检测结果。
在这里插入图片描述

问题定义

在ICDAR 2015比赛中，附带场景文本检测的ground truth以顺时针方向四个点表示(x1,y1,x2,y2,x3,y3,x4,y4)（图a），可能不是矩形框，但在本文中，作者将任意方向的场景文本检测任务近似为检测一个倾斜的最小面积矩形（图b，c）。
在这里插入图片描述
虽然表示倾斜矩形的直接方法是用角度表示其方向，但由于角度目标在某些特殊点上不稳定，所以没有采用这种策略。例如，一个旋转角度为90度的矩形与旋转角度为-90度的矩形非常相似，但是它们的角度却有很大的不同。这使得网络很难学会检测垂直文本。
文章假设第一个点总是表示场景文本左上角的点。(x1,y1)为第一点坐标(实心红点)，(x2,y2)为第二点坐标(顺时针方向)，h为倾斜最小面积矩形的高度。

Rotational Region CNN（R2-CNN）

（1）RPN用于提出轴向对齐的框，实验证明，采用较小的锚点对场景文本检测有一定的帮助。
（2）不同pooled size的ROIPoolings，作者添加了两个池大小:11：3和3 ：11。合并的size3 ：11应该捕捉更多的水平特性，并帮助检测宽度远远大于高度的水平文本。合并后的大小为11：3，可以捕获更多的垂直特征，对于高度远远大于宽度的垂直文本检测非常有用。
（3）文本/非文本评分、轴向对齐框和倾斜的最小面积框的回归，在倾斜边界元法中，将传统的IoU计算方法修改为两个倾斜边界元之间的IoU，实验证明，倾斜边框IUO效果优于传统IOU。

训练过程

在每个候选区域上定义的损失函数是文本/非文本分类损失和框回归损失的总和。
边框损失包括两部分，轴向框损失和倾斜最小面积的框损失，轴向框损失与faster R-CNN 一样，倾斜最小面积的框损失采用倾斜IOU计算损失。
每个提案的多任务损失函数定义为:
在这里插入图片描述
具体的损失函数与faster-RCNN类似。