第五章深度学习

5.1卷积神经网络的原理

卷积神经网络（Convolutional Neural Networks, CNN）是一种特别适应于识别图像的网络结构，它包括局部感受野（local receptive fields），共享权重（shared weights）和池化层（pooling）。

局部感受野：和全连接网络不同同，对于卷积神经网络，网络的输入是图像，例如MNIST数据中，网络的输入就是一个28×28的图像，如下图：

但是和全连接层不同的是，这里的输入神经元并不是每一个都和隐藏层的神经元相连，而是每一个区域，例如一个5×5的区域，这个区域内的输入神经元和隐藏层的一个隐藏神经元相连接，也就是说，下一层的每一个隐藏神经元都只负责输入层的一个固定区域的输入神经元，如下图所示：

这个输入图像的区域，例如上例中的这个5×5的区域，就被叫做是局部感受野。隐藏层的每一个隐藏神经元，将每一个和它相连的连接学习一个权重，同时也学习一个总的偏置。我们从图像的左上角开始，按照一定的跨距移动局部感受野，一直到局部感受野遍历整幅图像为止。跨距可以自己设置，这里跨距设置为1时局部感受野的移动情况为：

共享权重和偏置：我们已经知道，每一个隐藏层的神经元具有一个偏置和连接到它的局部感受野的5×5的权重，权重和偏置共享的概念在于，对于同一层的隐藏单元而言，我们将采用相同的偏置和5×5的权重。这意味着同一层的隐藏神经元检测完全相同的特征，只是在输入图像的不同位置上进行检测。我们有时候把输入层到隐藏层的映射称为一个特征映射。我们把定义特征映射的权重称为共享权重，把这种方式定义的偏置称为共享偏置，共享权重和偏置经常被称为一个卷积核或者滤波器。一个完整的卷积层由几个不同的特征映射所构成，如图：