卷积神经网络中每层矩阵维度变化

卷积神经网络在图像识别上已经相当成熟.经典的识别手写字的卷积神经网络LeNet-5模型为7层的神经网络.其中每一层上面矩阵的维度的变换是图像像素得到识别的重点,而矩阵维度的变换是每一层之间使用卷积核大小所决定.LeNet-5模型在识别手写字方面最为经典:
(第0层),卷积神经网络的输入层为图片的矩阵,输入的图片为32*32,因为每次输入的图片张数为1,因此input层的矩阵大小为:32*32*1.
(第一层):卷积层(convolution layer).
在LeNet-5的神经网络中,第一层使用的卷积核大小为5*5*1,卷积核(filter)的输出深度为6,使用不填充,步长为1.不填充的情况下,输出的矩阵大小为32-5+1=28.因此第一层卷积层的大小为28*28*6.
(第二层):池化层(pooling layer).
在有些文献,池化层被称为最大混合层(翻译问题不必深究).池化层过滤器大小2*2,步长为2.因此第二层的的大小为14*14*6.
(第三层):卷积层
第二层的大小为14*14*6,也就是这一层的输入.在这一层,使用的卷积核大小为5*5*6,输出深度为16,不使用填充,步长设为1.因此输出矩阵的大小为:14-5+1=10.矩阵的大小为10*10*16.
(第四层):池化层
这一层的池化层的过滤器大小为2*2,步长为2.因此大小为5*5*16.
(第五层):全连接层,设置节点数为120.
(第六层):全连接层,设置节点为84
(第七层):全连接层,设置节点为10
(第八层):Softmax 层.用来把输出概率化处理.

猜你喜欢

转载自blog.csdn.net/yuyushikuan/article/details/78553636