TextSpotter with Explicit Alignment and Attention

论文:

An end-to-end TextSpotter with Explicit Alignment and Attention 

Github:

https://github.com/tonghe90/textspotter

 

cvpr 2018 paper。阿德莱德大学沈春华老师和先进院乔宇老师分别为4,5作者。

Pipeline:

整个流程包括基于Pvanet的基础网络结构,类似于ROI pooling的Text alignment操作,然后基于attention方式的encode-decode方式的字符识别。

 

Network architecture :

网络基础结构采用的Pvanet,该网络结构最后一个卷积层的输出featuremap大小为原图的1/4。

 

Text detection :

该模块和EAST模块很类似,感觉区别就是EAST的基础架构师resnet50,这里换成了Pvanet。该模块主要进行文本/非文本的二分类任务和多角度边框的回归任务。分类任务使用softmax损失。回归任务输出点到边框上下左右的距离和角度,一共5个featuremap。回归任务的loss使用的是基于IOU的loss,其实也就是EAST中的dice loss。

 

Text-Alignment Layer :

该层类似于roi pooling,但是有着自己的优点。如上图所示,第一行表示的是roi pooling的结果,第二行表示的是Text-Alignment的结果。可以看出roi pooling只能应对水平方向的区域,对于多方向的文本,会引入好多无关背景区域。而Text-Alignment有角度的信息在里面,可以很好的pooling出带角度的文本区域。

Text-Alignment使用等间隔的bilinear 插值实现,最终输出固定大小的文本区域(w=64,h=8)。

 

Attention encoder-decoder:

在Text-Alignment出来的featuremap,首先经过conv,pool操作,最终变化为1*64的大小,然后经过一个双向lstm操作。再经过encode-decode操作,输出最终识别结果。

 

Loss:

最终的loss包括,

Lword:单词识别的loss

Lloc:文本检测的loss

Lalign:attention对齐的loss

w表示width,t表示时间步,pt,j表示第j列在时间t的值,at,j表示第j列在时间t的attention。

Kt为第t个字母的ground truth中心坐标,wt为第t个字母的width,T表示字符的个数,整个Lalign就表示归一化后的attention。

Lmask:表示字符的mask的loss。掩码的个数和字符类别的数目一样。

其中,Lalign和Lmask表示可选的loss,可以不使用。

λ1,λ2:平衡因子,取值都为0.1

 

总结:

(1)检测部分为使用pvanet代替resnet50的 EAST版本。

(2)text-alignment layer 是论文的创新,也是使得整个流程可以一起训练的关键一环。相比roi pooling更加适用于文本检测。

(3)识别部分,在原有的encoder-decoder基础上,加入了每个字符的attention和mask机制。

(4)一个新颖的训练策略。先使用synthetic images 数据集,固定检测,直接提供ground truth文本框训练识别,这样迭代120K次。然后放开检测部分,让其权重跟新,但是同样还是提供ground truth文本框,这样迭代80K次。最后整体一起训练,使用ICDAR2013,ICDAR2015的数据训练迭代60k次。

猜你喜欢

转载自blog.csdn.net/qq_14845119/article/details/81561110