0. 前言

在这篇论文《An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition》所讲述的内容便是大名鼎鼎的CRNN网络，中实现了端到端的文本识别。
论文地址
 Github地址
该网络具有如下的特点：
1）该模型可以直接识别序列数据，既是包含了多个文字的图片数据
2）该模型具有与DCNN直接从原始图像数据学习的能力，并不需要人工进行3）任何诸如分割等的预处理操作。
4）具有与RNN类似的属性，产生序列标签
5）CRNN并不需求序列的长度固定，只要输入数据的高度一致便可以了
6）该模型取得的效果比之前的方法都要好
7）相比DCNN具有更少的参数，模型的尺寸更小

1. 网络的架构

这里写图片描述
可以看出该网络是由三个主要部分组成的：卷积层、循环层、转录层。这三个部分的作用为，卷积对图像进行卷积操作提取出图像的深层特征；循环层产生特征序列每一帧的预测值；转录层将循环层生成的帧预测序列转换为标签序列。

2. 特征序列提取

在CRNN网络中需要输入的图像数据是相同的高度，之后进过卷积层，产生特征序列，如下图所示
这里写图片描述
图像经过卷积操作之后每一列数据实际代表原始图像中的一块长方形区域。在实际过程中，作者提出了一个自定义层实现卷积层和循环层之间的映射，方便进行训练。

3. 生成每一帧的预测

该部分是使用LSTM层进行实现的
这里写图片描述

4. 预测转录

这一部分使用了CTC里面定义的条件概率，在制作训练集标签时并不需求文本序列在标签中的位置，只需要对应的图片与标签数据。
数学上，转录是根据每帧预测找到具有最高概率的标签序列。在两种转录形式：无词典转录和基于词典的转录。词典是一组标签序列，预测受拼写检查字典约束。在无词典模式中，预测时没有任何词典。在基于词典的模式中，通过选择具有最高概率的标签序列进行预测。

CRNN论文笔记

0. 前言

1. 网络的架构

2. 特征序列提取

3. 生成每一帧的预测

4. 预测转录

猜你喜欢