对CNN中pooling的理解

源链接 https://blog.csdn.net/jiejinquanil/article/details/50042791

自己在看论文的过程中结合网上的一些资料，对pooling的一些理解汇总如下，以供参考：
1、pooling主要是在用于图像处理的卷积神经网络中，但随着深层神经网络的发展，pooling相关技术在其他领域，其他结构的神经网络中也越来越受关注。
2、卷积神经网络中的卷积层是对图像的一个邻域进行卷积得到图像的邻域特征，亚采样层就是使用pooling技术将小邻域内的特征点整合得到新的特征。pooling确实起到了整合特征的作用。
3、pooling的结果是使得特征减少，参数减少，但pooling的目的并不仅在于此。pooling目的是为了保持某种不变性（旋转、平移、伸缩等），常用的有mean-pooling，max-pooling和Stochastic-pooling三种。
4、对这三种pooling的分别介绍：
4.1 mean-pooling，即对邻域内特征点只求平均：假设pooling的窗大小是2x2, 在forward的时候，就是在前面卷积完的输出上依次不重合的取2x2的窗平均，得到一个值就是当前mean pooling之后的值。backward的时候，把一个值分成四等分放到前面2x2的格子里面就好了。举例：

forward: [1 3; 2 2] -> [2]
backward: [2] -> [0.5 0.5; 0.5 0.5]

4.2 max-pooling，即对邻域内特征点取最大。forward的时候你只需要把2x2窗子里面那个最大的拿走就好了，backward的时候你要把当前的值放到之前那个最大的位置，其他的三个位置都弄成0。举例：

forward: [1 3; 2 2] -> 3
backward: [3] -> [0 3; 0 0]

据相关理论，特征提取的误差主要来自两个方面：（1）邻域大小受限造成的估计值方差增大；（2）卷积层参数误差造成估计均值的偏移。一般来说，mean-pooling能减小第一种误差，更多的保留图像的背景信息，max-pooling能减小第二种误差，更多的保留纹理信息。
4.3 Stochastic-pooling则介于两者之间，通过对像素点按照数值大小赋予概率，再按照概率进行亚采样，在平均意义上，与mean-pooling近似，在局部意义上，则服从max-pooling的准则。
stochastic pooling方法非常简单，只需对feature map中的元素按照其概率值大小随机选择，即元素值大的被选中的概率也大。而不像max-pooling那样，永远只取那个最大值元素。有关于stochastic pooling理解的例子与代码详见Stochastic Pooling简单理解
5、pooling原因一是仿照人的视觉系统进行降维（降采样），用更高层的抽象表示图像特征，这一部分内容从Hubel&wiesel视觉神经研究到Fukushima提出，再到LeCun的LeNet5首次采用并使用BP进行求解，是一条线上的内容，原始推动力其实就是仿生，仿照真正的神经网络构建人工网络。
6、至于pooling为什么可以这样做，是因为：我们之所以决定使用卷积后的特征是因为图像具有一种“静态性”的属性，这也就意味着在一个图像区域有用的特征极有可能在另一个区域同样适用。因此，为了描述大的图像，一个很自然的想法就是对不同位置的特征进行聚合统计。这个均值或者最大值就是一种聚合统计的方法。
7、做窗口滑动卷积的时候，卷积值就代表了整个窗口的特征。因为滑动的窗口间有大量重叠区域，出来的卷积值有冗余，进行最大pooling或者平均pooling就是减少冗余。减少冗余的同时，pooling也丢掉了局部位置信息，所以局部有微小形变，结果也是一样的。就像图片上的字母A，局部出现微小变化，也能够被识别成A。而加上椒盐噪音，就是字母A上有很多小洞，同样的能够被识别出来。而平移不变性，就是一个特征，无论出现在图片的那个位置，都会识别出来。所以平移不变性不是pooling带来的，而是层层的权重共享带来的。
8、对池化后平移不变性的理解见池化后的平移不变性.

参考资料：
http://www.zhihu.com/question/23437871/answer/24696910
http://www.cnblogs.com/tornadomeet/p/3432093.html
http://blog.csdn.net/zhoubl668/article/details/24801103
http://www.zhihu.com/question/34898241

欢迎补充！

对CNN中pooling的理解

猜你喜欢