Filtering and Padding

原始图片为nxn当经fxf的filter后大小就变成了（n-f+1）f一般是奇数如果有步长S 那么输出就是 $(n - f) / S + 1$

这时候就会出现两个问题

卷积运算后，输入图片尺寸减小
原始图片边缘信息对输出贡献少，输出图片会丢失边缘信息

为了解决图片缩小的问题，使用padding的方法，对原始图片进行扩展，扩展区域补零，用p表示扩展宽度，

在这里插入图片描述

经过padding后，原始图片变成 $(n + 2 p) x (n + 2 p)$

所以要保证卷积前后图片尺寸的一致那么 $p = (f - 1) / 2$

Stride表示filter在原图片中水平方向和垂直方向每次的步进长度。之前我们默认stride=1。若stride=2，则表示filter每次步进长度为2，即隔一点移动一次。

我们用s表示stride长度，p表示padding长度，如果原始图片尺寸为n x n，filter尺寸为f x f，则卷积后的图片尺寸为：

$⌊\frac{n+2p−f}{s}+1⌋X⌊\frac{n+2p−f}{s}+1⌋$

值得一提的是，相关系数（cross-correlations）与卷积（convolutions）之间是有区别的。实际上，真正的卷积运算会先将filter绕其中心旋转180度，然后再将旋转后的filter在原始图片上进行滑动计算。filter旋转如下所示：

其实，目前为止我们介绍的CNN卷积实际上计算的是相关系数，而不是数学意义上的卷积。但是，为了简化计算，我们一般把CNN中的这种“相关系数”就称作卷积运算。之所以可以这么等效，是因为滤波器算子一般是水平或垂直对称的，180度旋转影响不大；而且最终滤波器算子需要通过CNN网络梯度下降算法计算得到，旋转部分可以看作是包含在CNN模型算法中。总的来说，忽略旋转运算可以大大提高CNN网络运算速度，而且不影响模型性能。

卷积运算服从结合律：
$(A * B) * C = A * (B * C)$

Convolutions Over Volume

对于3通道的RGB图片，其对应的滤波器算子同样也是3通道的。例如一个图片是6 x 6 x 3，分别表示图片的高度（height）、宽度（weight）和通道（#channel）。

3通道图片的卷积运算与单通道图片的卷积运算基本一致。过程是将每个单通道（R，G，B）与对应的filter进行卷积运算求和，然后再将3通道的和相加，得到输出图片的一个像素值。

不同通道的滤波算子可以不相同。例如R通道filter实现垂直边缘检测，G和B通道不进行边缘检测，全部置零，或者将R，G，B三通道filter全部设置为水平边缘检测。

为了进行多个卷积运算，实现更多边缘检测，可以增加更多的滤波器组。例如设置第一个滤波器组实现垂直边缘检测，第二个滤波器组实现水平边缘检测。这样，不同滤波器组卷积得到不同的输出，个数由滤波器组决定。

若输入图片的尺寸为n x n x nc，filter尺寸为f x f x nc，则卷积后的图片尺寸为(n-f+1) x (n-f+1) x nc’。其中，nc为图片通道数目，nc’为滤波器组个数。

One Layer of a Convolutional Network

卷积神经网络的单层结构如下所示：

相比之前的卷积过程，CNN的单层结构多了激活函数ReLU和偏移量b。整个过程与标准的神经网络单层结构非常类似：

每个滤波器组有3x3x3=27个参数，还有1个偏移量b，则每个滤波器组有27+1=28个参数，两个滤波器组总共包含28×2=56个参数。我们发现，选定滤波器组后，参数数目与输入图片尺寸无关。所以，就不存在由于图片尺寸过大，造成参数过多的情况。例如一张1000x1000x3的图片，标准神经网络输入层的维度将达到3百万，而在CNN中，参数数目只由滤波器组决定，数目相对来说要少得多，这是CNN的优势之一。

参数的数量与图片的size无关

最后，我们总结一下CNN单层结构的所有标记符号，设层数为l

理解，输入：图片的宽高和维度叠加上滤波器后，那么权重的个数其实就是滤波器的参数个数,偏置为输出的滤波器个数

Simple Convolutional Network Example

下面介绍一个简单的CNN网络模型：

该CNN模型各层结构如上图所示。需要注意的是， $a^{[3]}*a^[3]$ 的维度是7 x 7 x 40，将 $a^{[3]}*a^[3]$ 排列成1列，维度为1960 x 1，然后连接最后一级输出层。输出层可以是一个神经元，即二元分类（logistic）；也可以是多个神经元，即多元分类（softmax）。最后得到预测输出 $\hat y$ 。

值得一提的是，随着CNN层数增加， $n_H^{[l]}和n_W^{[l]}$ 一般逐渐减小，而 $n_c^{[l]}$ 一般逐渐增大。

对于参数的话最后的每一层的参数为fxfx $n_c^{[ l-1 ]}$ + $n_c^{[ l ]}$

CNN有三种类型的layer：

Convolution层（CONV）
Pooling层（POOL）
Fully connected层（FC）

CNN Example

下面介绍一个简单的数字识别的CNN例子：

图中，CON层后面紧接一个POOL层，CONV1和POOL1构成第一层，CONV2和POOL2构成第二层。特别注意的是FC3和FC4为全连接层FC，它跟标准的神经网络结构一致。最后的输出层（softmax）由10个神经元构成。

整个网络各层的尺寸和参数如下表格所示：

Why Convolutions

相比标准神经网络，CNN的优势之一就是参数数目要少得多。参数数目少的原因有两个：

参数共享：一个特征检测器（例如垂直边缘检测）对图片某块区域有用，同时也可能作用在图片其它区域。
连接的稀疏性：因为滤波器算子尺寸限制，每一层的每个输出只与输入部分区域内有关。

除此之外，由于CNN参数数目较小，所需的训练样本就相对较少，从而一定程度上不容易发生过拟合现象。而且，CNN比较擅长捕捉区域位置偏移。也就是说CNN进行物体检测时，不太受物体所处图片位置的影响，增加检测的准确性和系统的健壮性。

深度学习之 filtering and padding

Filtering and Padding

Convolutions Over Volume

One Layer of a Convolutional Network

Simple Convolutional Network Example

CNN Example

Why Convolutions

猜你喜欢

深度学习之 filtering and padding

Filtering and Padding

Convolutions Over Volume

** One Layer of a Convolutional Network**

Simple Convolutional Network Example

CNN Example

Why Convolutions

猜你喜欢

One Layer of a Convolutional Network