论文笔记-弯曲文本检测Detecting Curve Text in the Wild New Dataset and New Solution

介绍

本文是从论文《Detecting Curve Text in the Wild New Dataset and New Solution》翻译总结的,该论文首次提出了弯曲文本数据集CTW1500及弯曲文本检测方法CTD(curve text detector)+TLOC(transverse and longitudinal offset connection 横向纵向偏移链接)。

下面是个例子,可以看下。本文弯曲文本检测有如下优点(a)避免不必要的重叠;(b)减少背景噪音;(c)四边形无法精确的识别弯曲的多文本行,本方法可以。
在这里插入图片描述

数据集准备

首先收集各种带有弯曲文字的图片,接着手工标记标签点。如下图所示,第一步,标记4个顶点(1,2,3,4),标记后会自动生成蓝色虚线;第二步,移动鼠标(十字黑色虚线),选择合适的与蓝色虚线相交的点,然后标记,可以看到又标记了10个点,总共14个点。
在这里插入图片描述

模型

在这里插入图片描述

CTD

上图中去掉紫色部分(紫色部分是TLOC),包括三部分,分别是骨架、RPN、回归模块。本文骨架部分采用的是ResNet-50(去掉了最后一个残差block)。Region proposal network (RPN)和回归模块分别连接着骨架。RPN中,使用默认的矩形anchors 来粗略的记住文本,同时采用非常宽松的RPN-NMS 门槛值以避免过早的抑制。回归模块中增加了弯曲点的确定。

将获得的约束矩形的最小x、最小y最为基准点。这样14个标签点的相对长和高标记为w_i、h_i(i从1到14)。整个需要回归计算的参数是32个,包括14个offset w,14个offset h,约束矩形x最小、最大值,约束矩形y最小、最大值。

最终采用的公式如下,p*是真实标签值,p是预测值。w_chr是约束矩形(circumscribed rectangle)的宽,h_chr是约束矩形的高。

在这里插入图片描述

TLOC(Recurrent Transverse and Longitudinal Offset Connection)

如上面提到的架构图紫色部分。

RNN链接到position-sensitive RoI Pooling(PSROIPooling),输出固定的14个 width offset、14个height offset。PSROIPooling用来预测和vote分类概率和定位offset。PSROIPooling分割每个RoI 为pp bins,来评估位置信息,对于每个分类产生一个p^2 score map。本文使用的是77bin,所以对于高度、宽度,输入卷积层维度都是1477.

对于7*7bin中每个点(i,j),其中i,j取值大于0,小于6(=7-1)。

扫描二维码关注公众号,回复: 11554921 查看本文章

每个点(i,j)针对分类c的池化值为r_c (i,j│θ),公式如下:
在这里插入图片描述

在PSROIPooling处理后,通过基于p^2 score map 的全局池化,CTD可以获得每个RoI的分数,公式如下,会产生(C+1)维的向量:
在这里插入图片描述

最后的分类分数是采用softmax函数,处理所有分类。

在这里插入图片描述

损失函数:
在这里插入图片描述

其中N是与特定重叠范围匹配的正负proposal的数量,Np是正proposal的数量。 此外,λ和μ是衡量分类和检测损失之间重要性的平衡因子(Lcls代表分类损失函数; Lloc是定位损失函数,可以是平滑的L1损失或平滑Ln损失)。 实际上,我们将λ设置为3甚至更多以平衡具有更多目标的定位损失。 此外,(c,b,w,h)分别代表预测的类,估计的边界框,宽度和高度偏移,(c *,b *,w *,h *)表示相应的真实状况。

为了提高检测性能,我们将横向和纵向分支分开以预测用于定位文本区域的偏移。直观地,每个点由上一个和下一个点以及文本区域重新限制。例如,第六标记点的偏移宽度应该大于第五点并且小于第七点。

独立地预测每个偏移可能导致文本区域不平滑,以及它可能带来更多错误检测。因此,我们认为每个点的宽度/高度都有相关的上下文信息,故使用RNN来学习它们潜在的特征。我们将此方法命名为循环横向和纵向偏移连接(TLOC)。

为了voting w1、w2、…w14,PSROIPooling输出14个p^2 score map,这个可以作为w的feature。RNN网络然后将这些feature最为序列输入,循环更新其隐层的内在状态。公式如下:
在这里插入图片描述

其中Ot是对应于PSROIPooling输出的预测offset。

本文采用的是BLSTM(bidirectional long short-term memory)。最后RNN(BLSTM)的输出是一个14维的1*256向量,然后由(1×256)的核进行全局池化,最后输出最终预测。

长边插值

针对以前那边四边形数据,可以基于最长的边,等分插入标签点,达到14个点即可。

多边形处理

Non-polygon suppression (NPS):非多边形抑制,即去除那些无效的多边形,比如没有任何相交边的多边形。

Polygonal non-maximum suppression (PNMS):多边形非极大抑制,参考NMS,提出了Mask-NMS,

NMS算法如下:
获取当前目标类别下所有bbx的信息
将bbx按照confidence从高到低排序,并记录当前confidence最大的bbx
计算最大confidence对应的bbx与剩下所有的bbx的IOU,移除所有大于IOU阈值的bbx
对剩下的bbx,循环执行(2)和(3)直到所有的bbx均满足要求(即不能再移除bbx)

实验结果

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/zephyr_wang/article/details/105795361
new