【文字识别】GTC: Guided Training of CTC论文阅读

地址:论文
主要思路: 将attention和ctc两种方式进行融合,利用attention对ctc的对齐进行监督和引导,同时,在ctc分支中加入GCN图卷积神经网络提高模型表达能力。

简介

为了克服CTC的局限性,我们必须两个动机:(1)学习更好的特征表示从更有效的引导和(2)建立label和局部特征的联系。
模型
模型示意图如下所示:
在这里插入图片描述
来自强大网络的编码器可以学习更好的对齐和特征表示,其中的特征映射更容易解码。因此,CTC模型从指导中学习,变得更加有效。
CTC在解码的时候,一个label可能有多次输出。我们假设相邻的时间步长具有补充特征,并且在特征序列中存在一定的相关性。于是在这里引入了GCN模块,学习局部特征的联系。

方法

CTC解码的方法具有一定的随机性,如:label为‘AB’,如果有3个step,CTC的解码可能为:‘A-B’ or ‘-AB’ or ‘AB-’ or ‘AAB’ or ‘ABB’,这样会影响特征的特征和label的对齐效果。所以才引入了一个attentio 分支,来优化STN(矫正网络)和resnet(特征提取网络)两个部分。

结果

在这里插入图片描述

分析

  1. 利用CTC来对attention model进行监督引导,实验效果发现没有前面的方案好。
    在这里插入图片描述
  2. GTC方案的矫正网络部分有更好的矫正效果
    在这里插入图片描述
  3. 更好的局部相关性
    将距离矩阵和相似度矩阵相乘
    在这里插入图片描述

总结

  • 利用attention分支对矫正网络和特征提取网络进行一定的监督作用
  • 在crrn分支中加入GCN,加强序列特征局部的学习。
发布了244 篇原创文章 · 获赞 147 · 访问量 28万+

猜你喜欢

转载自blog.csdn.net/u011622208/article/details/104180668
今日推荐