深度学习卷积的直观理解

单通道卷积过程:

       从卷积核(图中3×3的阴影矩阵)开始,它一个小的权值矩阵。这个卷积核在 2 维输入数据上「滑动」,对当前输入的部分元素进行矩阵乘法,然后将结果汇为单个输出像素。

卷积核重复这个过程知道遍历了整张图片,将一个二维矩阵转换为另一个二维矩阵。输出特征实质上是在输入数据相同位置上的加权和(权值是卷积核本身的值)。

输入数据是否落入这个「大致相似区域」,直接决定了数据经过卷积核后的输出。这意味着卷积核的尺寸直接决定了生成新的特征时汇合了多少(或几个)输入特征。

这与全连接层完全相反。在上面的例子中,我们的输入特征为 5*5=25,输出数据为 3*3=9. 如果我们使用标准的全连接层,就会产生一个 25*9=225 个参数的权值矩阵,每个输出都是所有输入数据的加权求和。卷积操作允许我们只用 9 个参数来实现这个变换,每个输出特性不用「查看」每个输入特征,而是只是「查看」来自大致相同位置的输入特征。

介绍两种卷积层中常用的技术:Zero Padding 和 Strides

  • Zero Padding:如果你看到上面的动画,那么会注意到在卷积核滑动的过程中,边缘基本会被「裁剪」掉,将 5*5 特征矩阵转换为 3*3 的特征矩阵。边缘上的像素永远不在卷积核的中心,因为内核没有任何东西可以扩展到边缘之外。这并不理想,因为我们经常希望输出的尺寸等于输入。

                              zero padding

       Padding 做了一些非常机智的办法来解决这个问题:用额外的「假」像素(通常值为 0,因此经常使用的术语「零填充」)填充边缘。这样,在滑动时的卷积核可以允许原始边缘像素位于其中心,同时延伸到边缘之外的假像素,从而产生与输入相同大小的输出。

  • Striding:运行卷积层时,我们通常希望输出的尺寸是比输入更低。这在卷积神经网络中是常见的,在增加信道数量的同时空间尺寸减小。其中一种方法是使用池化层(例如,取每 2×2 网格的平均值/最大值将空间维度减半)。还有一种方法是使用 Striding:

      Stride 的想法是改变卷积核的移动步长跳过一些像素。Stride 是 1 表示卷积核滑过每一个相距是 1 的像素,是最基本的单步滑动,作为标准卷积模式。Stride 是 2 表示卷积核的移动步长是 2,跳过相邻像素,图像缩小为原来的 1/2。Stride 是 3 表示卷积核的移动步长是 3,跳过 2 个相邻像素,图像缩小为原来的 1/3

多通道卷积:

       上面一节描述了具有单个输入通道的图像。实际上,大多数输入图像都是 3 通道的,通道数只会增加你的网络深度。通常我们会将图像的通道视作一个整体,强调其整体的一面而不关注各自的差异。

                                                              RBG 的三通道图像 

                                                 滤波器:卷积核的集合(多通道情况)

       滤波器和卷积核这两个术语之间有着本质的区别:仅在 1 通道的情况下,滤波器和内核这两个术语等价,但在一般情况下,它们是不同的。每个滤波器实际上是多个卷积核的集合,图层的每个输入通道都对应有一个卷积核,并且是唯一的。

但是在多通道情况下,卷积层中的每个滤波器都只会输出一个通道,他们是这样实现的:

       滤波器的每个卷积核在各自的输入通道上「滑动」,产生各自的计算结果。一些内核可能比其他内核具有更大的权重,以便比某些内核更强调某些输入通道(例如,滤波器的红色通道卷积核可能比其他通道的卷积核有更大的权重,因此,对红色通道特征的反应要强于其他通道)。

然后将每个通道处理的结果汇在一起形成一个通道。滤波器的卷积核各自产生一个对应通道的输出,最后整个滤波器产生一个总的输出通道。

再加上一个偏置项。偏置在这里的作用是对每个输出滤波器增加偏置项以便产生最终输出通道。

多个滤波器的生成都和单滤波器相同:每个滤波器使用不同的卷积核集合和具有上述过程的标量偏差项来处理输入数据,最终产生一个输出通道。然后将它们连接在一起以产生总输出,其中输出通道的数量是过滤器的数量(输出feature Map的个数跟过滤器的个数一致)。在输出数据送入另一个卷积层之前,通常还要应用非线性激活函数(sigmod/ReLU/tanh等)。重复上述操作即可完成网络的搭建。

参考文献:

https://mp.weixin.qq.com/s?__biz=MzU1NTUxNTM0Mg==&mid=2247489025&idx=2&sn=80e3c1f56e06fe5468e77a4092b9a1ad&chksm=fbd27aa0cca5f3b6692f8975542936d571afcb84c3fa353f3f470cb317b549b23423bfb389b5&mpshare=1&scene=1&srcid=0816wjisHFUYoJrp7dvVPoBz&pass_ticket=te3ixgA0WZCtDawTARs%2BV6I49hUZ0othDcpuAKjhJexOTDVWNZ3Scxk1AB3knBBj#rd

猜你喜欢

转载自blog.csdn.net/southcamel/article/details/81741705