【文字识别】GTC: Guided Training of CTC论文阅读 - 代码天地

【文字识别】GTC: Guided Training of CTC论文阅读

其他 2020-03-20 10:13:02 阅读次数: 0

地址:论文
主要思路: 将attention和ctc两种方式进行融合，利用attention对ctc的对齐进行监督和引导，同时，在ctc分支中加入GCN图卷积神经网络提高模型表达能力。

简介

为了克服CTC的局限性，我们必须两个动机:(1)学习更好的特征表示从更有效的引导和(2)建立label和局部特征的联系。
模型
模型示意图如下所示：
在这里插入图片描述
来自强大网络的编码器可以学习更好的对齐和特征表示，其中的特征映射更容易解码。因此，CTC模型从指导中学习，变得更加有效。
CTC在解码的时候，一个label可能有多次输出。我们假设相邻的时间步长具有补充特征，并且在特征序列中存在一定的相关性。于是在这里引入了GCN模块，学习局部特征的联系。

方法

CTC解码的方法具有一定的随机性，如：label为‘AB’,如果有3个step，CTC的解码可能为:‘A-B’ or ‘-AB’ or ‘AB-’ or ‘AAB’ or ‘ABB’，这样会影响特征的特征和label的对齐效果。所以才引入了一个attentio 分支，来优化STN（矫正网络）和resnet（特征提取网络）两个部分。

结果

在这里插入图片描述

分析

利用CTC来对attention model进行监督引导，实验效果发现没有前面的方案好。
GTC方案的矫正网络部分有更好的矫正效果
更好的局部相关性
将距离矩阵和相似度矩阵相乘

总结

利用attention分支对矫正网络和特征提取网络进行一定的监督作用
在crrn分支中加入GCN，加强序列特征局部的学习。

发布了244 篇原创文章 · 获赞 147 · 访问量 28万+

私信关注

猜你喜欢

转载自blog.csdn.net/u011622208/article/details/104180668

【文字识别】GTC: Guided Training of CTC论文阅读

【自监督论文阅读笔记】MVP: Multimodality-guided Visual Pre-training

跨模态检索论文阅读：(PTP)Position-guided Text Prompt for Vision-Language Pre-training

[论文解析]FreeDoM: Training-Free Energy-Guided Conditional Diffusion Model

论文阅读：Region Proposal by Guided Anchoring

2018年视频行为识别相关论文阅读Flow Guided Feature: A Fast and Robust Motion Representation for Video Action Recog

【论文阅读】Mixed Precision Training

Guided Anchoring 论文笔记

【论文精读】Guided-MVS

Optical Flow Guided Feature论文

【论文笔记】Guided Anchor：Region Proposal by Guided Anchoring

论文阅读 | Clustrophile 2: Guided Visual Clustering Analysis

Tell Me Where to Look: Guided Attention Inference Network论文阅读

论文阅读：GA-RPN: Region Proposal by Guided Anchoring

论文阅读 | Target-Guided Open-Domain Conversation

《Densely Self-guided Wavelet Network for Image Denoising》论文阅读

[论文阅读] TGANet: Text-guided attention for improved polyp segmentation

【论文阅读】Unsupervised Data Augmentation for Consistency Training

《Blurriness-guided Unsharp Masking》阅读笔记

Discriminator Guided Scene Text detector 论文翻译

CVPR2018论文阅读--Occluded Pedestrian Detection Through Guided Attention in CNNs

论文阅读笔记四十五：Region Proposal by Guided Anchoring（CVPR2019）

【论文阅读笔记】Looking Fast and Slow: Memory-Guided Mobile Video Object Detection

【论文阅读笔记】Bottom-Up Human Pose Estimation by Ranking Heatmap-Guided Adaptive Keypoint Estimates

【视频异常检测-论文阅读】Synthetic Temporal Anomaly Guided End-to-End Video Anomaly Detection

论文阅读 (86)：Normality Guided Multiple Instance Learning for Weakly Supervised Video Anomaly Detection

《论文阅读19》Multisource forest point cloud registration with semantic-guided keypointsand robust RANSAC

Semantics-Guided Neural Networks for Efficient Skeleton-Based Human Action Recognition 论文阅读

论文阅读 Jointly Optimize Data Augmentation and Network Training

Training Neural Networks with Weights and Activations Constrained to +1 or -1论文阅读

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)