[OCR]Multi-digit Number Recognition from Street View Imagery

1 论文简介

1.1 网络架构

本文利用CNN进行门牌号识别,并且规定序列最大长度为N(实验设N=5)。最后一层包含6个softmax,第一个softmax预测是的序列长度L,L可取7个值:{0, 1, 2, 3, 4, 5, 大于5}。后面5个softmax分别表示对应位置上的数字,每个位置上的数字可取10个值:{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}。在训练时,对于digit不存在的位置,不反向传播任何误差信息。对于存在的digit和L,其误差为常见的负log似然。本文所用网络结构如下所示:
请添加图片描述

1.2 数据集

SVHN数据集中,对每个图片标记了每个数字的box:首先得到包含所有数字的box,然后将这个box的宽和高都扩展30%,根据扩展box截图,将截图resize到6464大小,然后在这个6464的图片上的任意位置截54*54的图片。会对数据进行减均值的预处理操作。

作者反映训练的模型可以达到96%的精度。

Guess you like

Origin blog.csdn.net/weixin_44145782/article/details/121100650