深度学习笔记（基础）——（五）卷积神经网络

卷积神经网络是为识别二维形状而特殊设计的一个多层感知器，这种网络结构对平移、比例缩放、倾斜或者其他形式的变形具有高度不变性。这些良好的性能是网络在有监督方式下学会的，网络的结构主要有稀疏连接和权值共享两个特点。

卷积神经网络不是一个单一的功能个体，而是多种功能神经元的集合。如图4.13所示，其中包括卷积核、非线性的激活函数、网络间的批量规范化层【Batch Normalize】操作（可选的）、参数开关Dropout操作（可选）、Pooling层（可选）、全连接层（可选）等。多层的深度对于输入数据不同层次和深度的特征抽象具有非常重要的现实意义。一般来讲，低层的神经网络抽取得到的特征更加初级，如纹理方向等；而高层的网络得到的可能是更具有语义和表达的特征，如形状轮廓等。随着网络深度的增加，需要训练的网络参数也增加，要得到较好的效果的数据量也增加，网络收敛的时间也增加。

卷积过程的步长大小影响卷积结果的大小。如图4.14所示，选择的步长是2，加上卷积核的大小为3*3的影响，一个输入大小为7*7的特征图输出的大小为3*3，即（7-3）/2+1 = 3。那么，通过边缘填充以及步长为1的方式可以得到一个尺度不变的卷积输出结果。

卷积神经网络的核心有三个：

（1）局部感受野。形象地说，局部感受野就是模仿人的眼睛。想想看，人在看东西的时候，目光是聚焦在一个相对很小的局部的吧？严格一些说，普通的多层感知器中，隐含层结点会全连接到一个图像的每个像素点上，而在卷积神经网络中，每个隐含层节点只连接到图像某个足够小局部的像素点上；从而大大减少需要训练的权值参数。举个例子，依旧是1000*1000的图像，使用10*10的感受野，那么每个神经元只需要100个权值参数。不幸的是，由于需要将输入图像扫描一遍，共需要991*991个神经元！参数数目减少了一个数量级，不过还是太多。

（2）权值共享。形象的说，权值共享就如同人的某个神经中枢的神经细胞，它们的结构、功能是相同的，甚至是可以互相替代的。也就是说，在卷积神经网络中，同一个卷积核内，所有神经元的权重是相同的，从而大大减少需要训练的参数。继续上一个例子，虽然需要991*991个神经元，但它们的权值是共享的，所以还是只需要100个权值参数，以及一个偏置参数。从MLP（多层神经网络）的10^9到这里的100，就这么赞！注：在CNN中的每个隐含层，一般会有多个卷积核。

（3）池化。形象地说，一个人先随便看向远方，然后闭上眼睛回忆，他可以回忆起刚才看到的东西，但不能记住每个细节。同样，在卷积神经网络中，没有必要一定对原图像做处理，而是可以使用某种“压缩”方法，这就是池化，也就是每次将原图像卷积后，都通过一个下采样过程来减少图像的规模。以最大池化（Max Pooling）为例，1000*1000的图像经过10*10的卷积核卷积后，得到的991*991的特征图，然后使用2*2的池化规模，即在没4个点组成的小方块中，取最大的一个作为输出，最终得到的是496*496大小的特征图。

深度学习笔记（基础）——（五）卷积神经网络

猜你喜欢