《LOCALITY-CONSTRAINED SPATIAL TRANSFORMER NETWORKFOR VIDEO CROWD COUNTING》论文笔记

论文地址

论文翻译

ABSTRACT

与基于单个图像的人群计数相比,视频提供了人群的时空信息,这将有助于提高人群计数的鲁棒性。但是人的平移,旋转和缩放会导致相邻帧之间的头部密度图发生变化。同时,步入/驶出或被动态场景遮挡的人会导致人数的变化。为了减轻视频人群计数中的这些问题,提出了局域性空间变压器网络(LSTN)。具体来说,我们首先利用卷积神经网络来估计每个帧的密度图,然后,为了将相邻帧之间的密度图关联起来,引入了局部性受限空间变换器(LST)模块,以估计下一帧与当前帧的密度图。为了促进性能评估,收集了一个大规模的视频人群计数数据集,其中包含15K帧以及从13个不同场景捕获的约394K带注释的头部。 据我们所知,它是最大的视频人群计数数据集。在我们的数据集和其他人群计数数据集上进行的大量实验验证了我们的LSTN在人群计数方面的有效性。我们所有的数据集都在https://github.com/sweetyy83/Lstn_fdst_dataset中发布。

1. INTRODUCTION

人群计数由于其在视频监视,交通控制和紧急情况管理中的潜在应用而已广泛用于计算机视觉。但是,大多数以前的著作1 ,2, 3都集中在基于单个图像的人群计数上。在实际应用中,我们手头有视频,通常人群的移动是可预测的且一致的4。在本文中,我们的目标是利用相邻帧之间的时空一致性来获得更可靠的视频人群计数。
       ~~~~~~ 以前的人群计数方法可以大致分为基于检测的方法和基于回归的方法。基于检测的方法通过检测头部或行人来计数人群,但是这些方法通常无法检测到微小的5或闭塞的6头部/身体,这在实际场景中非常常见。因此,基于回归的方法更为常用。最近,鉴于卷积神经网络(CNN)在图像分类方面的成功,它也已被引入人群计数,其中CNN用于学习从输入图像到其对应密度图的映射。为了利用相邻帧之间的时空一致性来获得视频中更准确的密度图,已经提出了基于LSTM 7或ConvLSTM 8的方法,该方法可以将LSTM或ConvLSTM的所有历史帧的特征累加起来,以进行密度图估计。这些方法已经证明了其对视频人群计数的有效性,但是它们以隐式方式利用了历史信息,并且当人们走进/出入或被遮挡时,历史帧中人群的身份可能与当前帧中的人群完全不同。因此,这些历史记录中的特征甚至可能会损害当前帧的密度图估计。
       ~~~~~~ 在本文中,我们不是使用LSTM或ConvLSTM隐式地对视频中的时空相关性进行建模,而是建议利用局域性空间转换器(LST)模块来显式地对相邻帧之间的时空相关性进行建模。
       ~~~~~~ 具体地说,一方面,在人群相同的情况下,先前的工作4表明可以很好地预测人群的轨迹。 但是由于视角,距离,旋转和照明的变化,同一个人的外观可能在视觉上发生很大变化,因此有时可能不容易在两个相邻的框架中直接重新识别该人。但是密度图忽略了人们的外表,仅与头部的位置有关。由于人们的轨迹是可预测的,因此一帧的密度图可能会通过一些转换而偏离其前一帧的密度图,其中包括人们远离或朝着相机走来引起的缩放和平移,相机运动引起的旋转等。另一方面,对于视频,某些人走进/走出摄像机的成像范围或被遮挡。在这些情况下,从先前的帧中估计这些人的密度图是不可行的。通过在LST中综合考虑所有这些因素,我们建议不要将整个帧的密度图翘曲,而是将每个帧分成多个块。如果这两个块相似,则它们可能对应于相同的总体,则地面真实密度图和扭曲密度图之间的差异应较小。如果有人进/出或被遮挡,则我们允许前一帧的扭曲密度图与地面真实情况略有不同。此外,由于仅使用相邻帧之间的时空依赖性,因此我们的模型可以摆脱不相关历史帧在密度图估计中的影响。实验验证了我们的视频人群计数模型的有效性。
       ~~~~~~ 对于视频人群计数,需要具有多个场景的大规模数据集。但是大多数现有的数据集都太小,只有几个场景。 例如,WorldExpo’10 个数据集是上一幅作品中最大的一个,仅包含5个场景。因此,我们建议构建一个具有更多场景的名为"Fudan-ShanghaiTech (FDST)"的新的大规模视频人群计数数据集。具体来说,FDST数据集包含15,000个帧,从13个不同的场景(包括购物广场,广场,医院等)捕获了394,081个带注释头。该数据集比WorldExpo’10数据集要大得多,后者仅包含3980个带199,923个带注释头的帧。此外,我们提供逐帧注释,而WordExPo’10仅每30秒提供一次注释。因此,FDST数据集更适合视频人群计数评估。
       ~~~~~~ 我们的工作的主要贡献可以概括如下:i)我们提出了一个局域性空间变压器网络(LSTN),该网络显式地对相邻帧之间的时空相关性进行建模,以方便视频人群计数。ii)我们收集了具有逐帧地面真实注释的大规模视频人群计数数据集,这将有助于评估视频人群计数中的性能。iii)大量实验验证了我们的视频人群计数模型的有效性。

2. RELATED WORK

       ~~~~~~ 由于我们的工作与基于深度学习的人群计数有关,因此在这里我们仅简要讨论基于深度学习的人群计数的最新工作。
       ~~~~~~ 人群计数为单个图像。 最近的工作3 9 10已经证明了CNN在单图像人群计数中对密度图估计的有效性。为了提高不同规模和密度地区人群计数的鲁棒性,提出了不同的网络架构,包括MCNN3、Hydra CNN11、Switch-CNN9、CSRNet10,基本上利用了具有不同局部接受域的网络进行密度地图估计。此外,最近人们还提出利用检测12或定位13任务来辅助人群计数任务。但在视频人群计数中,这些单图像人群计数方法可能导致相邻帧的人头计数不一致。
       ~~~~~~ 视频的人群计数。 以前的大多数作品都集中在单个图像人群计数上,而只有少数几本关于视频人群计数的作品。最近,Xiong等人8建议利用ConvLSTM集成历史特征和当前帧的特征以进行视频人群计数,这已经证明了其对视频人群计数的有效性。此外,Zhanget等人7还建议将LSTM用于视频中的车辆计数。但是,所有这些基于LSTM的方法都可能受到那些​​不相关的历史的影响,并且没有明确考虑视频中的时空依赖性,而在我们的解决方案中,使用LST明确地在相邻帧中对此类依赖性进行建模。因此,我们的解决方案更为直接。
       ~~~~~~ 空间变压器网络(STN)。 最近,Jader-berget等人提出了一种可微空间变压器(ST)模块,该模块能够对输入和输出之间的空间转换进行建模。该ST模块可以方便地接入现有的多种网络并进行端到端训练,在人脸比对1415和人脸识别16方面显示出了良好的效果。此外,该算法还被应用于基于由粗到精的单图像人群计数框架17中的密度地图估计。但与17不同的是,我们建议利用ST来关联相邻帧之间的图像进行视频众包。
在这里插入图片描述

3. OUR APPROACH

我们的网络架构如图1所示。它包括两个模块:密度图回归模块和局部约束空间变压器(LST)模块。密度图回归模块以每一帧为输入,估计其对应的密度图,LST模块以估计的密度图为输入,预测下一帧的密度图。

3.1. Density map regression module

密度图的生成对于基于密度图的人群计数性能非常重要。 给定一帧具有 N N 个头,如果第 i i 个磁头以 p i p_i 为中心,我们将其表示为增量函数 δ ( p p i ) δ(p-p_i) 。因此,可以如下计算该帧的地面密度图:
在这里插入图片描述
G σ ( p ) Gσ(p) 是具有方差 σ σ 的二维高斯核:
在这里插入图片描述
换句话说,如果一个像素在注释点附近,则它具有较高的属于头部的可能性。定义密度图后,密度图回归模块会将每个帧映射到其相应的密度图。我们将 t t h ( t = 1 . . . T ) t^{th}(t = 1,...,T) 帧的地面真实密度图表示为 M t G T M^{GT}_t ,并将通过密度图回归模块估算的密度图表示为 M t r e g M^{reg}_{t} 。 然后可以将密度图回归模块的目标编写如下:
在这里插入图片描述
在我们的实现中,我们在密度图回归模块中使用VGG-16网络。

3.2. LST module

对于视频中相同的人群,许多之前的工作已经表明,这些人的轨迹可以很好地预测。因此,前一帧的密度图将有助于当前帧的密度图预测。然而,在所有的视频人群计数数据集中,并没有提供相邻帧中人员的对应关系,这就避免了直接学习从前一帧的头坐标到当前帧的头坐标的映射。此外,由于相邻帧中的视角,距离,旋转和照明条件的变化以及遮挡,同一个人的外观可能在视觉上发生很大变化,这使得难以在两个帧中直接重新识别该个人。但是密度图忽略了人们的外表,仅与人头的位置有关。现在人们的轨迹是可以预测的,我们可以利用前一帧的密度图来估计同一组人当前帧的密度图。具体地说,如果人们离开相机或朝相机走去,则同一组人在相邻帧中的密度图的变形包括缩放和平移;如果相机存在某种运动(例如,由风或地面振动引起的运动),则旋转包括旋转和缩放。
       ~~~~~~ 最近的工作17显示了空间变压器(ST)模块对于学习输入和输出之间的转换的有效性。因此,ST可以用于学习两个相邻帧之间的同一人群的映射。但是,实际上,人们走进/走出摄像机的范围,可能会遮挡某些人,这限制了ST的应用。因此,在本文中,我们提出了一种LST,它实质上是每个图像块的加权ST。具体来说,我们将每个帧分成许多块。鉴于两个具有相同空间坐标但来自两个相邻帧的块,我们使用它们的相似度来加权一个块的地面密度图与从另一个块转换的密度图之间的差异。如果这两个块相似,则它们可能对应于相同的总体,则地面实度图和变换的密度图之间的差异应较小。如果有人进/出或被遮挡,则我们允许估计的密度图与地面真相略有不同。通过最小化所有块和所有帧之间的这种差异,可以利用相邻帧之间的依存关系进行视频人群计数。
       ~~~~~~ 我们将 L S T LST 模块的映射函数表示为 f L S T f_{LST} ,该函数将第 t t 帧的估计密度图作为输入来估计第 ( t + 1 ) t h (t + 1)^{th} 帧的密度图。我们使用 M t + 1 L S T M^{LST}_{t + 1} 表示由 L S T LST 估计的第(t + 1)帧的密度图。然后
在这里插入图片描述
其中 ( x i t y i t ) (x^{t}_{i},y^t_i) 是输出密度图中采样网格 Γ θ Γ_θ 的目标坐标, ( x i s y i s ) (x^{s}_{i},y^s_i) 是输入密度图中定义采样点的源坐标,而 A θ A_θ 表示变换矩阵18。我们将每帧 I t I_t M t + 1 G T M^{GT}_{t + 1} M t + 1 L S T M^{LST}_{t + 1} 均匀划分为 H × W H×W 个块,并使用 I t ( i , j ) I_t(i,j) M t + 1 G T ( i , j ) M^{GT}_{t + 1}(i,j) M t + 1 L S T ( i , j ) M^{LST}_{t + 1}(i,j) 表示该块在第 t t 帧的第 j j 列和第 i i 行中,其地面真密度图和LST估计的密度图。然后,LST的目标可以写成如下。

在这里插入图片描述
其中 S ( I t ( i j ) I t + 1 ( i j ) ) S(I_t(i,j),I_{t + 1}(i,j)) 表示对应的时间相邻块之间的相似度,可如下测量:
在这里插入图片描述

3.3. Loss function

我们将密度图回归模型的损耗与LST模型的损耗结合起来,得到如下的目标函数
在这里插入图片描述
λ λ 是用来平衡 l r e g l_{reg} l L S T l_{LST} 重量。在培训过程中,使用了 Adam 优化器,数据集的学习率为1e-8。为了减少过拟合,我们采用批处理归一化,批处理大小为5。训练好我们的网络后,在测试阶段,我们可以直接估计每个帧的密度图,并集成密度图以获得估计的人头数。

3.4. Implementation details

基于高斯的密度图生成的方差 γ = 3 γ= 3 ,并且在FDST数据集上用于相似性测量的 β β 为30。 我们将所有帧的尺寸调整为 640 × 360 640×360 像素。 我们首先预训练密度图回归模块,然后通过修复VGG-16中的前10层来微调整个网络。对于块数,我们在所有数据集上固定 W = 2 W = 2 。在Malldataset和我们的数据集上,我们在UCSD数据集上固定 H = 1 H = 2 H = 1,而H = 2 。我们在FDST数据集†上设置 λ = 0.001 λ= 0.001

4. EXPERIMENTS

在这里插入图片描述

4.1. Evaluation metric

在工作19之后,我们采用平均绝对误差(MAE)和均方误差(MSE)作为度量标准来评估不同方法的性能,其定义如下:
在这里插入图片描述
其中, t t 是所有测试视频序列的帧总数, z i z_i z i z_i 分别是该第 i i 帧中的实际人数和估计的人数。

4.2. Fudan-ShanghaiTech video crowd counting dataset

现有的视频人群计数数据集在帧数和场景数量上都太小。因此,我们引入了一个新的大规模视频人群计数数据集。具体来说,我们收集了从13个不同场景中捕获的100个视频,FDST数据集包含150,000帧,总共有394,081个带批注的头部。注释FDST数据集需要400多个小时。据我们所知,这个数据集是最大的视频人群统计数据集。表1显示了我们的数据集和其他相关数据集的统计数据。
       ~~~~~~ FDST数据集的训练集包含60个视频,9000帧,而测试集包含其余的40个视频,6000帧。 我们将我们的方法与实现单图像人群统计的最新性能的MCNN 3进行比较,将ConvLSTM 8作为最新视频人群统计的方法进行比较。我们还报告了不使用LST的方法的性能。所有结果示于表2中。我们可以看到我们的方法达到了最佳性能。值得一提的是,由于我们的数据集中场景很多,训练ConvLSTM并不容易,因此ConvLSTM的性能甚至比单幅图像差。基于方法。 我们还在图2中显示了由LSTN估计的密度图。
在这里插入图片描述

4.3. The UCSD dataset

我们还使用UCSD数据集20评估了我们的方法,该数据集包含UCSD校园中的监视摄像机捕获的2000帧。帧分辨率为 238 × 158 238×158 像素,帧速率为 10 f p s 10 fps 。 每帧中的人数从 11 到 46 不等。按照与20相同的设置,我们使用 601 至 1400 帧作为训练数据,其余 1200 帧作为测试数据。
       ~~~~~~ 按照10,我们使用双线性插值将每个帧的大小调整为 952 × 632 952×632 。表图3显示了此数据集上不同方法的准确性。我们可以看到我们的方法在该数据集上也优于基于ConvLSTM的方法。
在这里插入图片描述

4.4. The Mall dataset

使用监视相机21在购物中心中捕获Mall数据集。 这个基于视频的数据集由2000个帧组成,尺寸为 640 × 480 640×480 像素,并标记了60,000多名行人。 还提供了感兴趣区域(ROI)和透视图。 根据21中的训练测试设置,我们使用前800帧进行训练,其余1200帧进行测试。表中显示了不同方法的性能。 如图4所示,我们的模型在MAE和MSE方面也都达到了最先进的性能。
在这里插入图片描述

4.5. The importance of similarity term in LST

在我们的LSTN中,我们使用时间相邻区块之间的相似性来加权变形密度图及其地面真实性之间的差异。基本假设是,如果两个块相似,则这两个块中的人口可能对应于同一组人,那么空间变换器会很好地工作。但是,如果相似度较低,则意味着人们走进/进出或被遮挡,则不太可能推断时间相邻帧中的块密度图。我们比较了UCSD,Mall,FDST数据集上有/没有相似项的结果,结果如表5所示。我们可以看到,相似度项总是引导视频人群计数的性能,这证明了我们的假设。
在这里插入图片描述

5. CONCLUSION

6. REFERENCES


  1. M. Fu, P. Xu, X. Li, Q.Liu, M.Ye, and C.Zhu, “Fastcrowd density estimation with convolutional neural net-works,”Engineering Applications of Artificial Intelli-gence, pp. 81 – 88, 2015. ↩︎

  2. Cong Zhang, Hongsheng Li, Xiaogang Wang, and Xi-aokang Yang, “Cross-scene crowd counting via deepconvolutional neural networks,” inCVPR, June 2015. ↩︎

  3. Y. Zhang, D. Zhou, S. Chen, S. Gao, and Y. Ma, “Single-image crowd counting via multi-column convolutionalneural network,” inCVPR, June 2016, pp. 589–597. ↩︎ ↩︎ ↩︎ ↩︎

  4. B. Federico, L. Giuseppe, Ballan L, and A. Bimbo,“Context-aware trajectory prediction,”internationalconference on pattern recognition, 2017. ↩︎ ↩︎

  5. N. Dalal and B. Triggs, “Histograms of oriented gradi-ents for human detection,” pp. 886–893, 2005. ↩︎

  6. Oncel Tuzel, Fatih Porikli, and Peter Meer, “Pedestriandetection via classification on riemannian manifolds,”TPAMI, vol. 30, no. 10, pp. 1713–1727, 2008. ↩︎

  7. S. Zhang, G. Wu, J. P. Costeira, and J. M. F. Moura,“Fcn-rlstm: Deep spatio-temporal neural networks forvehicle counting in city cameras,” inICCV, Oct 2017,pp. 3687–3696. ↩︎ ↩︎

  8. X. Feng, X. Shi, and D. Yeung, “Spatiotemporal model-ing for crowd counting in videos,” inICCV. IEEE, 2017,pp. 5161–5169. ↩︎ ↩︎ ↩︎

  9. Deepak Babu Sam, Shiv Surya, and R. Venkatesh Babu,“Switching convolutional neural network for crowdcounting,” inCVPR, July 2017. ↩︎ ↩︎

  10. Y. Li, X. Zhang, and D. Chen, “Csrnet: Dilated con-volutional neural networks for understanding the highlycongested scenes,” inCVPR, 2018, pp. 1091–1100. ↩︎ ↩︎ ↩︎

  11. Daniel D. Onoro-Rubio and R. L ́opez-Sastre, “Towardsperspective-free object counting with deep learning,” inECCV. Springer, 2016, pp. 615–629. ↩︎

  12. J. Liu, C. Gao, D. Meng, and A. Hauptmann, “Deci-denet: counting varying density crowds through atten-tion guided detection and density estimation,” inCVPR,2018, pp. 5197–5206. ↩︎

  13. M. Tayyab H. Idrees, K. Athrey, D. Zhang, S. Al-maadeed, N. Rajpoot, and M. Shah, “Composition lossfor counting, density map estimation and localization indense crowds.,”arXiv: Computer Vision and PatternRecognition, 2018. ↩︎

  14. Dong Chen, Gang Hua, Fang Wen, and Jian Sun, “Su-pervised transformer network for efficient face detec-tion,” inECCV. Springer, 2016, pp. 122–138. ↩︎

  15. Yuanyi Zhong, Jiansheng Chen, and Bo Huang, “To-ward end-to-end face recognition through alignmentlearning,”IEEE signal processing letters, vol. 24, no.8, pp. 1213–1217, 2017. ↩︎

  16. Wanglong Wu, Meina Kan, Xin Liu, Yi Yang, ShiguangShan, and Xilin Chen, “Recursive spatial transformer(rest) for alignment-free face recognition,” inCVPR,2017, pp. 3772–3780. ↩︎

  17. Lingbo Liu, Hongjun Wang, Guanbin Li, WanliOuyang, and Liang Lin, “Crowd counting usingdeep recurrent spatial-aware network,”arXiv preprintarXiv:1807.00601, 2018. ↩︎ ↩︎ ↩︎

  18. Max Jaderberg, Karen Simonyan, Andrew Zisserman,et al., “Spatial transformer networks,” inAdvances inneural information processing systems, 2015, pp. 2017–2025. ↩︎

  19. Karunya Tota and Haroon Idrees, “Counting in densecrowds using deep features,” 2015. ↩︎

  20. A. B. Chan, Zhang-Sheng John Liang, and N. Vascon-celos, “Privacy preserving crowd monitoring: Countingpeople without people models or tracking,” inCVPR,June 2008, pp. 1–7. ↩︎ ↩︎

  21. Ke Chen, Chen Change Loy, Shaogang Gong, and TaoXiang, “Feature mining for localised crowd counting,”inIn BMVC. ↩︎ ↩︎

发布了28 篇原创文章 · 获赞 7 · 访问量 8774

猜你喜欢

转载自blog.csdn.net/weixin_42994580/article/details/104092946