【文字识别】Scene Text Recognition With Finer Grid Rectification论文阅读

地址: 论文
思路: 这篇论文采用矫正再识别的思路进行文字识别,主要有矫正网络和识别网络两大部分,其中矫正网络采用TPS的思路,不过不是和tps一样直接预测2*n个关键点,而是预测中心线,然后加上一个偏置b。识别部分采用GRU实现的attention进行解码,采用了一种新的双向方式替换了aster的方法。具有更好的效果。

3. 论文方法

3.1 矫正网络

矫正网络采用了STN,关键就是如何预测STN网络的控制点。
由于2D场景文本图像中的大多数字符都是沿直线或平滑曲线运动的,所以控制点也具有相同的特性趋势,多项式曲线是有效的估计趋势文本布局。我们可以用带有偏差的曲线来估计每条线的控制点Ci
在这里插入图片描述
矫正网络结构为:
在这里插入图片描述
而ASTER等矫正网络的参数个数为MN2,不过这个只有在关键点多的时候才能体现出来。论文说这种偏置的关键点预测方法能更好的包络文字区域。

3.2 识别网络

在这里插入图片描述
相较于ASTER,论文只用了一个解码层,GRU接受一个方向编码实现ASTER两个不同方向编码的效果。
ASTER等方法采用两个不同的分支来预测westtsew,论文的方法可以在解码部分可以减少1/2的参数。
方向向量由一个独热向量嵌入而来,如1表示正向,0表示反向。

4.结果

在这里插入图片描述
在更区的文字上效果可能更好一点。

总结

  • 优化了STN关键点的产生过程,对更区的文字效果更好
  • 优化了ASTER方法解码部分双向解码时的参数
发布了244 篇原创文章 · 获赞 147 · 访问量 28万+

猜你喜欢

转载自blog.csdn.net/u011622208/article/details/104156573