CNN 用于手写体的识别

一、卷积神经网络(CNN)基本概念

卷积神经网络是一种多层神经网络,擅长处理图像特别是大图像的相关机器学习问题。卷积网络通过一系列方法,成功将数据量庞大的图像识别问题不断降维,最终使其能够被训练。

二、CNN 基本模块

CNN 由输入层、隐藏层和输出层构成,其中隐藏层又包括卷积层、池化层、ReLU 层以及全连接层。

1.输入层

输入层一般是一个二维向量,但也可以多通道,如 RGB 图像。

2.卷积层

在这里插入图片描述
可以看到,现在有一张 5x5 的图片,利用 3x3 的卷积核,步长为 1(即每次滑动一个维度)
1  0  1

0  1  0

1  0  1

得到 3x3 的卷积结果(图中的橙色部分可以理解为一个滑动窗口)。
这个过程我们可以理解为我们使用一个过滤器(卷积核)来过滤图像的各个小区域,从而得到这些小区域的特征值。在实际训练过程中,卷积核的值是在学习过程中学到的。
简单来说,卷积层是用来对输入层进行卷积,提取更高层次的特征。

3.池化层

池化层又称下采样,它的作用是减小数据处理量同时保留有用信息,池化又分为最大池化和平均池化,前者是选择区域中的最大值,而后者是取区域中的平均值,最大池化一般采用得比较多。
在这里插入图片描述
可以看到,原始图片是 20x20 的,采样窗口是 10x10 的(步长为 10 ),最终将其下采样为一个 2x2 的特征图。
之所以要进行下采样,是因为卷积之后的图片仍然很大(因为卷积核比较小)。因为卷积已经提取出特征,相邻区域的特征类似,近乎不变,这时池化只是选出最能表征特征的像素,缩减了数据量,同时保留了特征。

4.ReLU 层(非线性激活函数)

属于非线性激活函数的一种,同类型的函数还有sigmoid函数,tanh函数,softplus函数等等,4 种函数的图形表现形式如下:
在这里插入图片描述
在这里插入图片描述

5.全连接层

全连接层需要把输入拉成一个列项向量,比如上一层的输出是 2x2的向量,那么你需要把这个向量拉成 4x1 的向量,如果是 3x2x2,则拉成 12x1 的向量,这时候,再乘以一个权重,需要把这 12 个像素点都包含进去,因此这个权重矩阵形式为 1x12(固定的),所以要求输入的 feature map 大小一样。
全连接层的输出是一个n*1大小的向量,并通过几个全连接层对向量进行降维操作,与class进行对应。
全连接层与卷积层的区别

从上面可以看出,全连接层的权重矩阵是固定的,即每一次feature map的输入过来必须都得是一定的大小(即与权重矩阵正好可以相乘的大小),所以网络最开始的输入图像尺寸必须固定,才能保证传送到全连接层的 feature map 的大小跟全连接层的权重矩阵匹配。

卷积层就不需要固定大小了,因为它只是对局部区域进行窗口滑动

三、CNN 用于手写体识别网络结构

CNN 用于手写体识别网络模型
在这里插入图片描述

在这里插入图片描述

四、CNN 用于手写字体识别代码理解

参考博客:
http://www.cnblogs.com/fydeblog/p/7450413.html
https://blog.csdn.net/u012905422/article/details/52601022
https://blog.csdn.net/zxyhhjs2017/article/details/78605283
https://blog.csdn.net/glory_lee/article/details/77899465

猜你喜欢

转载自blog.csdn.net/weixin_42970026/article/details/83069376