Fully Convolutional Crowd Counting On Highly Congested Scenes阅读笔记

Marsden M , Mcguinness K , Little S , et al. Fully Convolutional Crowd Counting On Highly Congested Scenes[J]. 2016.
本文使用 FCN 来做人群密度估计，主要参考 Single-image crowd counting via multi-column convolutional neural network
高斯核的设计、损失函数与 Single-image crowd counting via multi-column convolutional neural network中提到的方法一样。

贡献：

（1）训练集数据增强方案，其最小化训练样本之间的冗余以改进模型概括和整体计数性能; (A training set augmentation scheme that minimises redundancy among training samples to improve model generalisation and overall counting performance)
（2）深层，单列，完全卷积网络（FCN）架构，更大的模型容量提高了FCN学习人群计数数据集中存在的高度抽象的非线性关系的能力。 (a deep, single column, fully convolutional network (FCN) architecture)
（3）预测期间的多尺度平均。为了克服通常限制人群计数算法准确性的规模和视角问题，给定的测试图像以多种尺度（例如原始尺寸以及80％的原始尺寸）馈送到网络中。估计每个尺度的人群数量，并将平均值作为总体估计值。(a multi-scale averaging step during inference)

具体实现：

FCN用于人群计数主要的优点就是输入图像尺寸可以是任意的，输出的密度图根据输入尺寸自适应变化。

数据增强：

把训练集中的图片翻转、裁剪、缩放是计算机视觉中常用的增强技术。虽然重叠以进行图像识别任务是可以接受的，但在像素级任务可能会overfitting。因此，我们开发了增强方案以确保没有这种冗余。对于每个训练集图像，将四个图像象限以及它们的水平翻转four image quadrants as well as their horizontal flips作为训练样本，确保不重叠。为了验证这种增强方案，将Shanghaitech Part B训练集进一步分为使用9：1比率的训练和验证子集。表1突出显示了在有和没有重叠作物的数据集上训练模型时验证性能的差异。两个运行都使用相同的网络架构从头开始训练。

网络结构：

设计了一个6层单列FCN。该网络仅包含315,000个参数，这主要归功于没有任何完全连接的层。激活函数使用ReLU。在最后一层中使用1x1卷积来产生单通道人群密度热图，长宽尺寸为原本的1/4。然后将该密度热图馈送到2D积分器（在这种情况下简单地是元素总和）以产生人群计数估计。该网络使用随机梯度下降SGD和反向传播在单一训练中进行优化。我们选择最小化生成的密度热图和地面真实热图之间的欧几里德距离。此损失函数完全定义如下：

多尺度平均：

规模和透视问题通常会限制人群计数算法的性能。自上而下的摄像机视角是此任务的理想选择，但在实际环境中无法保证。在大多数场景中，前景行人比背景中的行人大得多，他们可能只占用几个像素。由于FCN允许可变大小的输入图像，我们可以在将给定的测试图像输入网络并估计人群大小之前轻松调整其大小。按比例缩小的版本可能会导致某些场景区域比原始区域更准确的人群计数。因此，为了克服这些问题，将给定的测试图像以多个尺度（例如，原始尺寸、80％原始尺寸）馈送到网络中。估计每个尺度的人群数量，并将平均值作为总体估计值。表3显示了几种多尺度平均方案的验证性能。像以前一样使用相同的训练和验证子集。方案2表现最佳，因此用于所有进一步的实验。

计算速度和计数准确度之间的权衡

完全卷积网络处理任何分辨率图像的能力是我们的方法实现强计数性能的关键原因之一。但是，分析这种高分辨率图像会导致高内存消耗和推理期间较慢的处理速度。因此，我们想要研究在我们看到显着的性能下降之前，在测试时间内可以降低图像分辨率的程度。这样做我们可以找到计算速度和准确度之间的最佳平衡。Shanghaitech Part B 数据集用于此实验。测试图像按比例缩小到其原始大小的给定百分比，并保持纵横比。这些实验的结果如图4所示。令人惊讶的是，在我们将图像尺寸减小到50％之前，我们没有看到误差显着增加。然而，在应用这50％调整大小的情况下，处理速度增加了4倍。在部署方案中，可以应用这种类型的下采样以便分析实时视频而不会严重损失准确性。

实验结果：

个人小结：

主要的创新点在于用一种不重复的方式扩充数据集，防止过拟合；另一方面，探究了图片缩放对准确率的影响，采用原图+缩放图共同输入取平均的方式来获得最后的数量。在FCN的结构设计上则中规中矩。