人群密度估计--论文阅读:CrowdNet

论文概述:CrowdNet

论文地址:CrowdNet: A Deep Convolutional Network for Dense Crowd Counting

官方源码:deep-crowd-counting
这篇文章中,作者提出了一种新的基于深度学习的静态图像人群密度检测的网络框架。结合深层网络(deep network)和浅层网络(shallow network)预测给定图像的密度图。算法基于UCF_CC_50 数据集测试,取得了当时最好的结果。

论文解析

1. 背景

  1. 检测人群拥挤和堵塞
  2. 确定人群密度是否超过警戒线,防止潜在的风险。

2. 相关工作

3. 具体算法

3.1 网络结构

整个算法的核心思想在于,通过对一张图像同时使用深层网络和浅层网络,因而可以学习到相对于高层次的特征,如脸部和身体检测(highly semantic level)和低层次的人头数目(low level head blob patterns)。网络结构如图:
CrowdNet结构

3.1.1 深度网络

深度网络使用了类似于VGG-16的网络体系来提取高层次的特征。

  • 一般VGG用来做目标检测,通过微调VGG的滤波器的大小来适应人群计数
  • 由于人群计数需要像素级别的预测(per pixel predictions),于是移除VGG架构中的全连接层来实现。

VGG 网络有5个最大池化层,每一层的stride=2,因此输出图像的大小为原来的 1/32,但是在作者使用的VGG网络中:

  • 将第四层的最大池化层的stride设为1,移除了第五层,这样使得输出的图像大小为原来的1/8.
  • 使用了文献[4] 中提到的technique of holes 来解决由于第四个最大池层中的步幅被移除而引起的感受野失配。

3.1.2 浅层网络

浅层网络的目标是,用来识别由远离摄像机的人而带来的低层次特征(low-level head blob patterns)。
浅层网络比较简单,主要特点如下:

  • 只有3个卷积层,每层都使用了24个5*5核的过滤器,因此输出为原图的1/8大小,这里可以看出,和深层网络的输出大小一致,也方便于后面的组合。
  • 为了使该网络预测的空间分辨率与它的深层对应相等,在每个卷积层之后使用池化层。
  • 而且为了确保不会因最大池化而造成计数损失,在浅层网络中使用的是平均池化层

3.1.3 网络组合

  • 将来自深网络和浅网络的预测串联,每个网络的输出带下是输入图像的1/8,并使用1x1卷积层进行处理。
  • 利用双线性插值将该层的输出上采样到输入图像的大小,从而得到最终的人群密度预测。
  • 然后和常见的密度图估计一样,对预测的密度图进行求和,可以得到图像中的总人数。

3.2 关于Ground Truth

  1. 由于使用含有头部标注的GT图来训练一个全卷积神经网络很困难(因为头部的准确的位置通常很模糊,不同的人标注的位置也不尽相同)。
  2. 作者使用归一化为1 的高斯核模糊头部的注释来生成GT图。这种方式生成的GT图使得CNN更容易学习到特征,因为不需要再获取头部的精准的位置。
  3. 此外,这种GT图的还提供了哪一区域贡献人头数的信息。这有助于CNN更好地预测人群密度和人群数量。

3.3 数据增强

CNN需要大量地数据集,由于数据有限,一般会采用数据增强来提高数据量。文章中作者提出了两种数据增强的方法,第一种类型的增强有助于解决人群图像中尺度变化的问题,而第二种类型的增强提高了CNN在极易出错的区域(即高度密集的人群区域)的性能。

  • 为了使CNN对图像尺度变换更具有鲁棒性,作者从每个训练图像的multi-scale pyramidal representation 中裁剪图像块。考虑裁剪比例从0.5到1.2,以0.1的步长递增,乘以原始图像分辨率(如下图)来构建image pyramid(类似于金字塔的结构)。图中裁剪了225×225个补丁,其中50%的重叠来自这个pyramid。
    数据增强——image pyramid
  • 第二点,作者发现CNN很难处理高密度的人群。为了克服这一点,通过更频繁地采样高密度图像块来增加训练数据。

4. 实验结果

使用UCF_CC_50 数据集来评估提出的方法。使用MAE量化模型性能。MAE计算数据集中所有图像的实际数量和预测计数之间的差的绝对值的平均值。表中显示了所提出的方法以及其他最新方法的结果。结果表明,作者的方法在人群统计方面达到了当时最优的性能:
方法对比

参考资料

  1. 论文:CrowdNet: A Deep Convolutional Network for Dense Crowd Counting

猜你喜欢

转载自blog.csdn.net/weixin_43335465/article/details/109017616