《Multi-scale Convolutional Neural Networks for Crowd Counting》论文笔记

论文地址

论文翻译

ABSTRACT

       ~~~~~~ 由于尺度的变化,静态图像的人群计数是一个具有挑战性的问题。最近,深度神经网络被证明在这一任务中是有效的。然而,现有的基于神经网络的方法往往使用多列多网络模型来提取尺度相关特征,这使得优化和计算变得更加复杂。为此,我们提出了一种新的多尺度调节体积神经网络(MSCNN)来进行单幅图像的众包计算。该网络以多尺度团为基础,能够在单列结构中生成与尺度相关的特征,从而获得较高的人群计数性能,在实际应用中具有较高的精度和成本效益。实验结果表明,该方法在参数数目少的情况下,在精度和鲁棒性方面均优于现有方法。

1. INTRODUCTION

       ~~~~~~ 人群计数的目的是估计从监控摄像头收集到的图像或视频中聚集的人数。在旅游景点和公共集会等情况下,过度拥挤会导致人群拥挤、堵塞甚至踩踏。利用计算机视觉技术进行准确、鲁棒的人群计数估计对公共安全具有重要意义。
       ~~~~~~ 现有的人群计数方法通常可分为两类:基于检测的方法和基于回归的方法。
       ~~~~~~ 基于检测的方法通常假定可以通过使用给定的视觉对象检测器来检测和定位人群图像上的每个人,并通过累积每个检测到的人来获得计数结果。然而,这些方法需要大量的计算资源,在实际场景中往往受到人员遮挡和复杂背景的限制,鲁棒性和准确性相对较低。
       ~~~~~~ 基于回归的方法直接从图像中回归人群计数。Chan等人使用手工功能将人群计数任务转换为回归问题。随后的工作提出了更多与人群相关的特征,包括基于片段的特征,基于结构的特征和局部纹理特征。 Lempit-sky等提出了一种基于密度的算法,该算法通过整合估计的密度图来获得计数。最近,深度卷积神经网络已被证明可以有效地进行人群计数。Zhang等人提出了卷积神经网络(CNN),以替代地学习人群密度和人群计数。Wang等人直接使用基于CNN的模型将图像补丁映射到其人员计数值。这些改进算法能较好地抑制尺度变化问题,但仍存在两个不足:

  • 多列/网络需​​要预先训练的单网络来进行全局优化,这比端到端训练更为复杂。
  • 多列/网络引入了更多的参数以消耗更多的计算资源,这使其难以实际应用。
           ~~~~~~ 本文中,我们提出了一种多尺度卷积神经网络(MSCNN)来提取与尺度相关的特征。我们没有引入更多的列或网络,而是仅引入了与朴素的Inception模块相似的具有不同内核大小的多尺度Blob。 我们的方法在使用少量参数的情况下,优于ShanghaiTech和UCFCC50数据集上的最新方法。

2. MULTI-SCALE CNN FOR CROWD COUNTING

       ~~~~~~ 由于视角失真,人群图像通常由各种大小的人物像素组成。单网络很难用相同大小的内核组合来应对规模变化。在一项工作中,提出了一个Inception模块来处理各种规模的视觉信息,并将其汇总到下一个阶段。出于此目的,我们设计了一个多尺度卷积神经网络(MSCNN),以从原始图像中学习与尺度相关的密度图。

2.1. Multi-scale Network Architecture

在这里插入图片描述
       ~~~~~~ MSCNN的概述如图1所示,包括特征重映射,多尺度特征提取和密度图回归。第一卷积层是传统的卷积层,具有单个大小的内核以重新映射图像特征。多尺度斑点(MSB)是一种类似Inception的模型(如图2所示),用于提取与尺度相关的特征,它由多个具有不同内核大小(包括9×9、7×7、5×5和 3×3)。 多层感知器(MLP)卷积层用作像素级完全连接,它具有多个1×1卷积滤波器以使密度图回归。整流线性单位(ReLU)在每个卷积层之后应用,用作除最后一层之外的先前卷积层的激活函数由于密度图中的值始终为正,因此在最后一个卷积层之后添加ReLU可以增强密度图的恢复。表1列出了详细的参数设置。
在这里插入图片描述
在这里插入图片描述

2.2. Scale-relevant Density Map

       ~~~~~~ 根据Zhang等人的方法,我们直接从输入图像中估计人群密度图。 为了生成高质量的比例尺相关密度图,比例尺自适应内核是当前的最佳选择。对于图像的每个头部注释,我们将其表示为增量函数 δ ( x x i ) δ(x-x_i) ,并使用高斯核 G σ G_σ 描述其分布,以便可以将密度图表示为 F ( x ) = H ( x ) G σ ( x ) F(x)= H(x)*G_σ(x) ,最后累加到 人群计数值。如果我们假设人群均匀分布在地平面上,则头部 x i x_i 及其最近的10个注解之间的平均距离 d i d_i 通常可以表征使用 Eq(1) 的透视效应引起的几何变形,其中 M M 是总数图像中的头部注释,我们根据经验将 β = 0.3 β= 0.3 固定。
在这里插入图片描述
在这里插入图片描述

2.3. Model Optimization

       ~~~~~~ 模型的输出映射到密度图,欧几里得距离用于测量输出特征图和相应地面真实性之间的差异。需要优化的损失函数定义为 Eq(2),其中 Θ Θ 代表模型的参数,而 F ( X i ; Θ ) F(X_i; Θ) 代表模型的输出。
在这里插入图片描述

3. EXPERIMENTS

       ~~~~~~ 我们评估了多尺度卷积神经网络(MSCNN)在两个不同的数据集上的人群计数,其中包括ShanghaiTech和UCFCC50数据集。实验结果表明,我们的MSCNN在准确性和鲁棒性方面均优于最新方法,参数要少得多。所有卷积神经网络都基于Caffe进行训练。

3.1. Evaluation Metric

       ~~~~~~ 根据现有的最先进的方法,我们使用绝对误差(MAE),平均平方误差(MSE)和神经网络参数的数量(PARAMS)来评估测试数据集的性能。在Eq.(3)和Eq.(4)中定义了MAE和MSE。在这里插入图片描述
在这里插入图片描述
这里的 N N 代表测试数据集中的图像总数, z i z_i z ^ i \hat{z}_i 分别是该图像的地面真实性和估计值。通常,MAE,MSE和PARAMS可以分别表示一种方法的准确性,鲁棒性和计算复杂性。

3.2. The ShanghaiTech Dataset

       ~~~~~~ ShanghaiTech数据集是大规模人群计数数据集。它包含1198个带注释的图像,共330,165人。数据集由两部分组成:PartA具有从Internet爬网的482张图像和PartB具有从繁忙的街道拍摄的716张图像。之后,它们都被分为具有300张图像的训练集和具有其余图像的测试集。

3.2.1. Model Training

       ~~~~~~ 为了确保有足够的数据用于模型训练,请通过裁剪每个图像中的9个小块并将其翻转来进行数据增强。 我们只需将9个裁剪点固定为上,中和下,并结合左,中和右即可。 每个补丁是原始大小的90%。
       ~~~~~~ 为了便于与MCNN体系结构进行比较,该网络的设计类似于MCNN的最大专栏,但使用MSB,其详细设置在表1中进行了描述。所有卷积核均使用高斯权重设置标准偏差为0.01进行初始化。如第2.3节所述,我们使用SGD优化,动量为0.9,重量衰减为0.0005。

3.2.2. Results

       ~~~~~~ 我们将我们的方法与ShanghaiTech数据集上的4种现有方法进行比较。 LBP + RR方法使用LBP功能在计数值和输入图像之间回归函数。张等设计了一个卷积网络,以从原始像素中回归密度图和人群计数值。建议使用多列CNN来估计人群计数值(MCNN-CCR)和人群密度图(MCNN)。
       ~~~~~~ 在表2中,结果表明我们的方法在ShanghaiTech数据集上达到了最先进的性能;此外,应该强调的是,我们的参数数量远远少于其他两种基于CNN的算法。MSCNN使用了大约 7 X 与最新方法(MCNN)相比,参数更少,具有更高的准确性和鲁棒性。
在这里插入图片描述

3.3. The UCFCC50 Dataset

       ~~~~~~ UCFCC50数据集包含50个灰度图像,共有63974个带注释的人。人数从94到4543,平均每人1280个人。我们将数据集平均分为5个,以便每个分割包含10张图像。然后,我们使用5倍交叉验证来评估我们提出的方法的性能。

3.3.1. Model Training

       ~~~~~~ UCFCC50数据集最具挑战性的问题是用于训练的图像数量有限,而图像中的人数却太大了。 为了确保足够的训练数据数量,我们执行数据增强策略,然后从每个图像中随机裁剪36个尺寸为225×225的色块,并像在Sec3.2.1中那样翻转它们。
       ~~~~~~ 我们使用5组训练集来训练5个模型。在所有5个模型都获得相应验证集的估计结果之后,才计算MAE和MSE。在训练过程中,MSCNN模型的初始化与 ShanghaiTech 数据集上的实验几乎相同,只是将学习速率固定为1e-7以确保模型收敛。

3.3.2. Results

       ~~~~~~ 我们将UCFCC50数据集上的方法与6种现有方法进行了比较。在一项工作中,手工特征用于从输入图像中回归密度图。在一项工作中,提出了三种基于CNN的方法来使用多列/网络并在UCFCC50数据集上进行评估。
       ~~~~~~ 表3说明了我们的方法还可以在UCFCC50数据集上达到最新的性能。 在这里,我们的参数数量大约比CrowdNet模型少5倍,表明我们提出的MSCNN可以更准确,更可靠地工作。
在这里插入图片描述

4. CONCLUSION

       ~~~~~~ 在本文中,我们提出了一种用于人群计数的多尺度卷积神经网络(MSCNN)。与最近的基于CNN的方法相比,我们的算法可以使用基于多尺度斑点(MSB)的单个柱状网络从人群图像中提取与尺度相关的特征。它是一种端到端的培训方法,不需要进行多列/网络预培训工作。我们的方法可以以更少的参数数量实现更准确,更强大的人群计数性能,使其更可能扩展到实际应用中。

发布了28 篇原创文章 · 获赞 7 · 访问量 8774

猜你喜欢

转载自blog.csdn.net/weixin_42994580/article/details/103930445