[论文阅读] Geometry Normalization Networks for Accurate Scene Text Detection

原文链接: Geometry Normalization Networks for Accurate Scene Text Detection

https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/103545402

思想:
这篇论文的角度是CNN模型对于文本检测的框的geometry variance的覆盖范围是有限的(用有限的variance来训练得到的检测器结果最好),首先验证,后提出通过新增几个不同的branch(Scale Normalization Unit和Orientation Normalization Unit的组合)来构成不同的检测器,因为每个子检测器都有自己的variance,组合起来就是large geometry variance,就能覆盖好很多框.同时,为了这个独特的设计,作者还改变了图片输入的方式,保证每个branch都得到充足的训练.

问题的提出:

前提: 通过(a)中橙色线的分布,可以看出,icdar15的框多为水平框(angle呈均值为0,方差较小的正态分布).作者想出了,如果增大angle variance的范围的话,可以通过算法的表现来观看算法对geometry variance的覆盖能力.

作法: 作者通过随机旋转样本的方式扩大了icdar15的框的geometry variance,后做了训练集和测试集是否有扩大geometry variance的消融实验,得到了,即便是训练集为large geometry variance,训练得到的模型在large geometry variance上也并没有很好这一结果,推出了CNN网络的瓶颈,便是在large geometry variance上有能力缺陷.

模型的提出:

作者首先提出了三种对icdar15样本选择的方法,然后分别在生成的样本集上做训练和短边长度为[20,40], 角度为[-π/12, π/12]的框进行测试,
其中,第一种方法是GSS(Geometry Specific Sampling),根据图片中的一个文本框作为伸缩的指导,使文本框的大小在test的范围里

第二种方法是GVS(Geometry Variance Sampling),和GSS雷同,但把框的范围变成[0,90], [-π/2, π/2]

第三种方法是LGSS(Limited Geometry Variance Sampling),和GSS不同的是,没有用到所有样本

上面的结果可以看出,GSS训练的结果最好,所以限制CNN所要预测的variance是非常重要的,同时,样本的数量也是很重要d

模型的设计:


作者认为将一个large geometry variance切割成很多子块,每一块为一个小的variance,然后给一个branch负责.其中,特别重要的一点,是训练和测试的时候,旋转,缩放图片服务于每个branch会过于麻烦,这里用了feature transformation来做这件事,则就是网络提出的两个模块.

i代表的是为第i个branch服务的转换器,分为两种,一种是Fs是为Scale服务的,一种是Fo是为Orientation服务的

Scale Normalization Unit


Orientation Normalization Unit

两者一组合


数据增强
之前的实验分析过,样本数量对于网络的性能也有影响.而当我们分branch的时候,在没有数据增强的时候,注定一些branch会训练不充足(训练的时候,会忽略那些数据分布不在自己范围的样本,则branch可见的样本变少),所以作者提出了对一个样本做相对应的缩放和旋转,则它对每个branch都是可见的,每个branch也会训练充分,这个也让每个样本的分布和总分布接近

思考
在之前的实验,也有过为一些branch做数据增强的方法,但是没有注意到很多细节,这个论文的策略中,值得探讨的点有:

ignore 那个不负责这个范围的branch,对于网络而言,使得每个branch的能力要求下降,更好训练
我们之前做数据增强的时候,忽略了网络本身的承载能力,所以有时候通过样本即便让网络遇见了更多的数据,也会让结果变差
这种边分析边得出结论后提出解决方法的论文不要太优美
 

猜你喜欢

转载自blog.csdn.net/xkx_07_10/article/details/103597502