论文地址

论文翻译

ABSTRACT

由于场景转换，复杂的人群分布，照明不均匀和遮挡等各种因素的影响，人群计数是一项具有挑战性的任务。为了克服这些问题，规模自适应卷积神经网络（SaCNN）使用卷积神经网络来获得高质量的人群密度图估计并整合密度图以获得估计的人数。提出了一种基于SaCNN的人群计数方法。对SaCNN中使用的几何自适应高斯核的扩展参数（即标准方差）进行了优化，以生成用于训练的更高质量的地面真实密度图。权重为4e-5的绝对计数损失与密度图损失共同优化，以提高行人少的人群场景的网络泛化能力。另外，采用随机裁剪方法来改善训练样本的多样性，以增强网络泛化能力。上海科技大学公共数据集上的实验结果表明，与SaCNN相比，该方法在人群计数上可以获得更准确，更可靠的结果。

I. INTRODUCTION

人群计数的目的是在获得人群密度的同时，估计人群场景中行人的数量。当人群密度超过一定的阈值¹时，人群很容易失控，公众安全受到严重威胁。因此，人群计数的研究对安全领域具有重要意义，在视频监控、交通监控、城市规划建设等领域有着广泛的应用。它也是对象分割²、³、行为分析⁴、⁵、对象跟踪⁶、⁷、场景感知⁸、⁹、异常检测¹⁰、¹¹等相关任务的组成部分。这可能是高水平认知能力¹²的基础。与其他计算机视觉问题一样，人群计数也面临着许多挑战，如遮挡、不均匀的人口分布、不均匀的光照、尺度和视角变化、复杂的场景变化等。任务的复杂性及其现实意义越来越受到研究者的关注。此外，人群计数方法可以很容易地转移到计算机视觉的其他任务中，如显微镜下的细胞计数¹³，¹⁴，车辆计数¹⁵，环境调查¹⁶。
$~~~~~~$ 与基于检测的人群计数方法(通常使用滑动窗口检测每个行人并计数行人¹⁷、¹⁸的数量)相比，基于回归的方法在高密度人群和严重遮挡场景¹⁹²⁰的人群计数中较为流行，且效果良好。对于基于回归的方法，早期研究者提出学习从局部图像块¹⁹、²¹中提取的低水平特征与行数之间的直接映射。然而，这种直接回归的人群计数方法忽略了重要的空间信息。2010年，Lempitsky和Zisserman¹⁹提出学习图像块局部特征与其对应的密度图之间的线性映射，其中包括空间信息，然后对密度图上的任意区域进行积分，得到该区域内的物体总数。2015年，Phamet al.²¹提出学习图像块局部特征与密度图之间的非线性映射。2016年，Wang和Zou¹⁴针对现有人群密度估计方法计算复杂度低的问题，提出了一种基于子空间学习的快速度估计方法。同年，受到人脸识别等其他研究领域的高维特征的启发，Xu和Qiu²⁰提出了一种利用更丰富的特征集来提高人群计数估计性能的方法。由于初始高斯过程回归或岭回归过于复杂，难以处理高维特征，因此采用随机森林作为回归模型。
$~~~~~~$ 近年来，卷积神经网络在许多计算机视觉任务中取得了很大的成功，这促使研究者们使用卷积神经网络来学习从人群图像到密度图或相应计数的非线性函数。2015年，Wanget al.²²首先利用Alexnet架构²³将卷积神经网络应用于人群计数任务。将4096个神经元的全连接层替换为只有一个神经元的连接层来估计人群图像中的行人数量。但该方法只能用于人群计数估计，无法获得图像的密度分布信息。Fuet al.²⁴提出人群密度分为5个等级:超高密度、高密度、中密度、低密度和极低密度。他们参考Sermanet等人提出的多尺度卷积神经网络²⁵、²⁶来估计人群的密度水平。Zhanget al.²⁷认为，当应用于与训练数据集不同的新场景时，现有方法的性能急剧下降。为了克服这个问题，提出了一种数据驱动的方法，利用训练数据对预训练的CNN模型进行微调，以适应未知的应用场景。然而，这种方法很大程度上依赖于准确的视角，需要大量的训练数据。2016年，Zhang等人²⁸提出了一个多列CNN (MCNN)，通过构造一个包含三个不同大小的过滤器(大、中、小)的列的网络。它可以适应由图像分辨率、视角或行人头部大小引起的变化。然而，由于训练过程繁琐，参数过多，网络训练难度大。Samet al.²⁹在2017年提出了一个 Switching CNN，根据图像中不同的人群密度，使用一组特定的训练数据的图像patch训练返回者。zhang和Shi³⁰提出了尺度自适应CNN (scale-adaptive CNN, SaCNN)来估计人群密度图，并整合密度图得到估计的人头数量，该算法在2017年获得了最先进的人群计数性能。在SaCNN中，对几何自适应高斯核进行了优化，以生成用于训练的高质量地面真实密度图。此外，还使用了密度图和相对人群计数损失函数进行联合优化。
$~~~~~~$ 为了获得更好的人群计数性能，提出了一种改进的基于SaCNN的人群计数方法。扩展参数，即优化了几何自适应高斯核的标准方差，生成了高质量的地面真值密度图。利用加权4e-5的绝对计数损失与密度图损失联合优化，提高了行人较少人群场景的网络泛化能力。将原始图像随机裁剪为256幅图像，提高训练样本的多样性，提高网络泛化能力。
$~~~~~~$ 一般来说，我们工作的主要贡献包括
$~~~~~~$ （1）通过分析SaCNN中用于几何自适应高斯核的人头大小估计的参数设置，发现人头大小估计在相对稀疏的场景中会才产生较大的误差，这可能会影响地面实况密度图的质量并降低人群的准确性。因此，对几何自适应高斯核的标准方差进行了优化，以获得更准确的头部尺寸估计以及更高质量的地面真密度图。
$~~~~~~$ （2）使用绝对计数损失函数与密度图损失进行联合优化，以提高行人少的人群场景的网络泛化能力。
$~~~~~~$ （3）在ShanghaiTech公共数据集上进行的实验表明，我们改进的SaCNN的性能优于原始SaCNN。
$~~~~~~$ 本文的组织如下。在第二节中，SaCNNis进行了详细介绍。第三节介绍了改进的SaCNN用于人群计数，而第四节则进行了实验并分析了结果。最终结论在第五节中给出。

II. INTRODUCTION ON SACNN

在这里插入图片描述
$~~~~~~$ 在SaCNN³⁰中，将人群图像映射到相应的密度图中，然后对密度图进行积分，得到人群计数。本节详细介绍了SaCNN，包括地面真值密度图的生成、体系结构和实现。

A. GENERATION OF THE GROUND TRUTH DENSITY MAP

$~~~~~~$ 在SaCNN中，利用几何自适应高斯核生成训练用的高质量地面真值密度图。
$~~~~~~$ 假设在像素 $x_i$ 处有一个行人头部，由增量函数 $δ(x - x_i)$ 表示。三角函数应使用高斯核 $G_σ$ 转换为连续密度函数，以进行网络训练。考虑到场景中的透视变换，头部大小是不一致的。头部到其邻居的平均距离被用来估计几何失真以获得高质量的密度图。对于给定的头部坐标 $x_i$ ，距近邻的距离为 $[d^i_1，d^i_2，.... ，d^i_k]$ ，平均距离为 $\overline{d}_i = 1/k∑^k_{j-1}d^i_j$ 。
$~~~~~~$ 因此，具有几何自适应高斯核的连续密度函数可以表示为：
在这里插入图片描述
其中N表示人群图像中的总头部数，散布参数 $σ_i$ 表示几何自适应高斯核的标准方差，取决于与 $k$ 的平均距离（在参考文献28中，k设置为2）每个头部坐标的邻域和系数 $β$ （在参考文献28中，其设置为0.3）。
$~~~~~~$ 而且，对于人群分布相对稀疏的人群场景，一些行人与其他行人之间的距离较远，这会导致较大的误差。因此，对于每个行人，头部的大小（高斯内核的内核大小）需要限制在100个像素以内（当 $\overline{d}^i$ > 100时，let $\overline{d}^i$ = 100）。

B. ARCHITECTURE

$~~~~~~$ SaCNN的结构如图1所示，包括网络和损失函数。
$~~~~~~$ SaCNN的网络是通过参考VGG设计的³¹。保留了VGG中的前5组卷积块，下采样系数为8。为了融合 $conv5_3$ 和 $conv6_1$ 的特征图，将池5的步长设置为1，并通过反卷积运算对融合特征进行上采样到原始图像的 $1/8$ 。然后，使用Conv43的跨层融合和反卷积特征图。 $conv7_1$ 和 $conv7_2$ 卷积层逐渐减少了特征图的数量。最后，使用带 $1×1$ 滤波器的卷积层获得密度图，可以将其集成以获得人数估计。
$~~~~~~$ 在SaCNN中，使用密度图损失函数和相对计数损失函数共同训练网络。
$~~~~~~$ 密度图损失函数表示为:
密度图损失函数表示为
在这里插入图片描述
其中 $θ$ 是要在网络中学习的参数集， $M$ 是训练图像的总数， $X_i$ 是输入图像， $D_i$ 是相应的地面真实密度图。 $F_d (X_i;θ) －D_i$ 代表 $X_i$ 估计密度图。对每个像素应用欧氏距离，然后累加。
$~~~~~~$ 利用相对计数损失函数得到高质量的人群密度分布，进行准确的人群计数:
在这里插入图片描述
其中 $F_d (X_i;θ)$ 是通过积分获得的估计头数， $Y_i$ 是地面真头数。

C. IMPLEMENTATION

$~~~~~~$ 在SaCNN中，对于原始训练数据集，使用随机裁剪方法从每个图像到增强训练图像裁剪9个补丁。每个色块是原始图像的1/4大小。随机梯度下降（SGD）优化器用于训练。学习率从1e-6开始，并随着多步策略而下降到1e-8。动量为0.9，批量为1。
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$
$~~~~~~$

REFERENCES

J. J. Fruin,Pedestrian Planning and Design. New York, NY, USA:Metropolitan Association of Urban Designers and Environmental Planners,1971. ↩︎
L. Dong, V. Parameswaran, V. Ramesh, and I. Zoghlami, ‘‘Fast crowdsegmentation using shape indexing,’’ inProc. Int. Conf. Comput.Vis. (ICCV), Rio de Janeiro, Brazil, Oct. 2007, pp. 1–8. ↩︎
K. Kang and X. Wang. (2014). ‘‘Fully convolutional neural networks forcrowd segmentation.’’ [Online]. Available: https://arxiv.org/abs/1411.4464 ↩︎
B. Zhou, X. Wang, and X. Tang, ‘‘Understanding collective crowd behav-iors: Learning a mixture model of dynamic pedestrian-agents,’’ inProc.IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Providence, RI, USA,Jun. 2012, pp. 2871–2878. ↩︎
J. Shao, C. C. Loy, and X. Wang, ‘‘Scene-independent group profilingin crowd,’’ inProc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR),Columbus, OH, USA, Jun. 2014, pp. 2219–2226. ↩︎
S. Yi, X. Wang, C. Lu, J. Jia, and H. Li, ‘‘L0regularized stationary-timeestimation for crowd analysis,’’IEEE Trans. Pattern Anal. Mach. Intell.,vol. 39, no. 5, pp. 981–994, May 2017. ↩︎
M. Rodriguez, I. Laptev, J. Sivic, and J.-Y. Audibert, ‘‘Density-awareperson detection and tracking in crowds,’’ inProc. Int. Conf. Comput.Vis. (ICCV), Barcelona, Spain, Nov. 2011, pp. 2423–2430. ↩︎
F. Zhu, X. Wang, and N. Yu, ‘‘Crowd tracking with dynamic evolutionof group structures,’’ inProc. Eur. Conf. Comput. Vis. (ECCV), Zürich,Switzerland, Sep. 2014, pp. 139–154. ↩︎
J. Shao, K. Kang, C. C. Loy, and X. Wang, ‘‘Deeply learned attributes forcrowded scene understanding,’’ inProc. IEEE Conf. Comput. Vis. PatternRecognit. (CVPR), Boston, MA, USA, Jun. 2015, pp. 4657–4666. ↩︎
V. Mahadevan, W. Li, V. Bhalodia, and N. Vasconcelos, ‘‘Anomaly detec-tion in crowded scenes,’’ inProc. IEEE Conf. Comput. Vis. Pattern Recog-nit. (CVPR), San Francisco, CA, USA, Jun. 2010, pp. 1975–1981. ↩︎
W. Li, V. Mahadevan, and N. Vasconcelos, ‘‘Anomaly detection andlocalization in crowded scenes,’’IEEE Trans. Pattern Anal. Mach. Intell.,vol. 36, no. 1, pp. 18–32, Jan. 2014. ↩︎
V. A. Sindagi and V. M. Patel, ‘‘A survey of recent advances in CNN-basedsingle image crowd counting and density estimation,’’Pattern Recognit.Lett., vol. 107, pp. 3–16, May 2018. ↩︎
K. Chen, C. C. Loy, S. Gong, and T. Xiang, ‘‘Feature mining for localisedcrowd counting,’’ inProc. Brit. Mach. Vis Conf. (BMVC), Surrey, BC,Canada, vol. 1, no. 2, Sep. 2012, p. 3. ↩︎
Y. Wang and Y. Zou, ‘‘Fast visual object counting via example-baseddensity estimation,’’ inProc. Int. Conf. Image Process. (ICIP), Phoenix,AZ, USA, Sep. 2016, pp. 3653–3657. ↩︎ ↩︎
D. Oñoro-Rubio and R. J. López-Sastre, ‘‘Towards perspective-free objectcounting with deep learning,’’ inProc. Eur. Conf. Comput. Vis. (ECCV),Oct. 2016, pp. 615–629. ↩︎
G. French, M. Fisher, M. Mackiewicz, and C. Needle, ‘‘Convolutionalneural networks for counting fish in Fisheries surveillance video,’’ inProc.Mach. Vis. Animals Behav. (MVAB), Swansea, U.K., Sep. 2015, pp. 1–10. ↩︎
T. Zhao, R. Nevatia, and B. Wu, ‘‘Segmentation and tracking of multiplehumans in crowded environments,’’IEEE Trans. Pattern Anal. Mach.Intell., vol. 30, no. 7, pp. 1198–1211, Jul. 2008. ↩︎
W. Ge and R. T. Collins, ‘‘Marked point processes for crowd counting,’’inProc. IEEE Conf. Comput. Vis. Pattern Recognit. (CVPR), Miami, FL,USA, Jun. 2009, pp. 2913–2920. ↩︎
V. Lempitsky and A. Zisserman, ‘‘Learning to count objects in images,’’inProc. Adv. Neural Inf. Process. Syst. (NIPS), Vancouver, BC, Canada,Dec. 2010, pp. 1324–1332. ↩︎ ↩︎ ↩︎
B. Xu and G. Qiu, ‘‘Crowd density estimation based on rich features andrandom projection forest,’’ inProc. IEEE Winter Conf. Appl. Comput.Vis. (WACV), Lake Placid, NY, USA, Mar. 2016, pp. 1–8. ↩︎ ↩︎
V.-Q. Pham, T. Kozakaya, O. Yamaguchi, and R. Okada, ‘‘COUNTforest: Co-voting uncertain number of targets using random forest forcrowd density estimation,’’ inProc. IEEE Conf. Comput. Vis. PatternRecognit. (CVPR), Boston, MA, USA, Dec. 2015, pp. 3253–3261 ↩︎ ↩︎
C. Wang, H. Zhang, L. Yang, S. Liu, and X. Cao, ‘‘Deep people counting inextremely dense crowds,’’ inProc. ACM Int. Conf. Multimedia, Brisbane,QLD, Australia, Oct. 2015, pp. 1299–1302. ↩︎
A. Krizhevsky, I. Sutskever, and G. E. Hinton, ‘‘ImageNet classificationwith deep convolutional neural networks,’’ inProc. Adv. Neural Inf. Pro-cess. Syst. (NIPS), Las Vegas, NV, USA, Dec. 2012, pp. 1097–1105. ↩︎
M. Fu, P. Xu, X. Li, Q. Liu, M. Ye, and C. Zhu, ‘‘Fast crowd densityestimation with convolutional neural networks,’’Eng. Appl. Artif. Intell.,vol. 43, pp. 81–88, Aug. 2015. ↩︎
P. Sermanet and Y. LeCun, ‘‘Traffic sign recognition with multi-scaleconvolutional networks,’’ inProc. Int. Joint Conf. Neural Netw. (IJCNN),San Jose, CA, USA, Jul./Aug. 2011, pp. 2809–2813. ↩︎
P. Sermanet, S. Chintala, and Y. LeCun, ‘‘Convolutional neural networksapplied to house numbers digit classification,’’ inProc. Int. Conf. PatternRecognit. (ICPR), Tsukuba, Japan, Nov. 2012, pp. 3288–3291. ↩︎
C. Zhang, H. Li, X. Wang, and X. Yang, ‘‘Cross-scene crowd counting viadeep convolutional neural networks,’’ inProc. IEEE Conf. Comput. Vis.Pattern Recognit. (CVPR), Boston, MA USA, Jun. 2015, pp. 833–841. ↩︎
Y. Zhang, D. Zhou, S. Chen, S. Gao, and Y. Ma, ‘‘Single-image crowdcounting via multi-column convolutional neural network,’’ inProc. IEEEConf. Comput. Vis. Pattern Recognit. (CVPR), Las Vegas, NV, USA,Jun. 2016, pp. 589–597. ↩︎
D. B. Sam, S. Surya, and R. V. Babu, ‘‘Switching convolutional neuralnetwork for crowd counting,’’ inProc. IEEE Conf. Comput. Vis. PatternRecognit. (CVPR), Honolulu, HI, USA, Jul. 2017, p. 6. ↩︎
L. Zhang, Q. Chen, and M. Shi. (2018). ‘‘Crowd counting via scale-adaptive convolutional neural network.’’ [Online]. Available: https://arxiv.org/abs/1711.04433 ↩︎ ↩︎
K. Simonyan and A. Zisserman. (2015). ‘‘Very deep convolutionalnetworks for large-scale image recognition.’’ [Online]. Available:https://arxiv.org/abs/1409.1556 ↩︎