语义分割系列（1）FCN的理解

对于这篇论文的学习，我主要带着三个疑问去看：

1、为什么全卷积网络能实现任意图像尺寸的输入？ 2、为什么要把全连接改成卷积？ 3、如何进行反卷积上采样？

1、为什么全卷积网络能实现任意图像尺寸的输入？

因为卷积网络的参数之和卷积核的大小和输入输出的channel数有关，和图像的尺寸没关系。

卷积层和全连接层的唯一区别在于卷积层的神经元对输入是局部连接的,并且同一个通道(channel)内不同神经元共享权值(weights).

卷积层和全连接层都是进行了一个点乘操作, 它们的函数形式相同. 因此卷积层可以转化为对应的全连接层, 全连接层也可以转化为对应的卷积层.

举个例子：

VGGNet[1]中, 第一个全连接层的输入是7*7*512, 输出是4096. 这可以用一个卷积核大小7*7, 步长(stride)为1, 没有填补(padding), 输出通道数4096的卷积层等效表示, 其输出为1*1*4096, 和全连接层等价. 后续的全连接层可以用1x1卷积等效替代.

全连接层转化为卷积层的规则是: 将卷积核大小设置为输入的空间大小.这样做的好处在于卷积层对输入大小没有限制, 因此可以高效地对测试图像做滑动窗式的预测.

2、为什么要把全连接改成卷积？

参数量太大假如输入1000*1000像素的图片，即输入层有1000*1000个节点。假设第一个隐藏层有100个节点(这个数量并不多)，那么仅这一层就有(1000*1000+1)*100=1亿参数，这实在是太多了！我们看到图像只扩大一点，参数数量就会多很多，因此它的扩展性很差。
没有利用像素之间的位置信息对于图像识别，每个像素和其周围的像素的联系都是比较紧密的，和离得远的像素的联系可能就很小。如果一个神经元和上一层所有神经元相连，那么就相当于对于一个像素来说，把图像的所有像素都等同看待，这不符合前面的假设。当我们完成每个连接权重的学习之后，最终可能会发现，有大量的权重，它们的值都是很小的(也就是这些连接其实无关紧要)。努力学习大量并不重要的权重，这样的学习必将是非常低效的。
网络层数限制一般而言网络层数越多表达能力越强。但是通过梯度下降的方法训练神全连接神经网络很困难，因为全连接神经网络的梯度很难传递超过3层。因此，我们不可能得到一个很深的全连接神经网络，也就限制了它的能力。

对于卷积神经网络解决以上三个问题，主要有三个思路：