论文理解《Body Structure Aware Deep Crowd Counting》

论文《Body Structure Aware Deep Crowd Counting》
IEEE TRANSACTIONS ON IMAGE PROCESSING

创新点:从语义场景分析作为出发点,进行人群计数;包含三个关键因素:行人,头部和他们地上下文结构(context structure);行人的语义结构可以提供更丰富的信息用于行人识别;
解决问题:现存的方法,大多是直接模拟行人的整个身体或者只有头,没有准确地捕捉复合地身体部位语义结构信息(composite body-part semantic structure imformation)
提出方法:我们首先阐述了作为语义场景模型的人群计数的关键因素;然后将人群计数问题转换为多任务学习问题,使语义场景模型分成三个不同的子任务;最后,将深度卷积神经网络运用到一个统一的模式学习子任务,在一个统一的方案中,解决了特征提取和多任务人群计数问题。;
方法性能:在四个人群计数数据集的benchmark上都有很好的性能,语义结构信息在人群计数的场景中会是一个高效的线索;

两类语义场景模型

第一个语义场景模型—— body part map
模拟了行人身体部位的视觉外观和上下文结构;在这个模型中,不同的行人身体部位被阐述为不同的语义类别;

基于 single pedestrian parsing model(参考论文【1】):属于预训练神经网络模型,计算一个输入行人图像的语义分割mask;
第二个语义场景模型—— structured density map

作为传统密度图的改进,结构化密度图旨在建模更细粒度的语义结构信息,从而提供更精确的像素级标签。
总结:

这两种语义场景模型,对群体计数的语义特征进行编码,并从群体图像中恢复了丰富的语义结构信息。

Multi-task learning

为了准确估计行人的数量,我们重新制定了群体计数作为一个多任务学习的问题。
三个子任务:推断两种语义场景模型;估计人群总数;

Related Work

A.Crowd Counting
B.Pedestrain Semantic Analysis
与直接检测整体行人不同的是,基于部分的方法 (parts-based methods) 利用了行人身体结构的信息,能够更有力地处理遮挡物。 与传统的基于部分的方法不同,我们将行人的 身体部分语义结构 作为我们方法中的语义场景模型,更适合于在深层神经网络框架下学习,在密集的拥挤场景中更有效、更健壮。

C.Convolutional Neural Networks
使用FCN;(MCNN也是使用FCN的方法)

OUR APPROACH

A.Problem Formulation
B.Body Part Map

C.Structured Density Map
  • 2D Gaussian kernels:
    
  • structured densty map:
    
  • 结构化密度映射与传统密度映射的区别:
从Fig.2中可以看出,结构化密度图不仅表示了人群的潜在密度分布而且还保持了每个行人的特定形状;

D.Multi-Task Crowd Counting Framework
网络具体参数及布局见paper page5;

EXPERIMENTS

CONCLUSION

提出一个新方法用于人群计数,方法主要关注于人群计数的语义信息;
构建了两个语义场景模型恢复图像中的大量语义结构信息;

将人群计数问题阐述为多任务学习问题,使语义场景模型分为三个子任务;
构建CNN于一个统一的模式中用于学习子任务;



Reference:
论文【1】:P. Luo, X. Wang, and X. Tang, “Pedestrian parsing via deep decompositional network,” in Proc. IEEE ICCV, Dec. 2013, pp. 2648–2655.

对论文的理解较为浅显,尚未实现论文方法效果,以及与更多方法比对结果,后续补充(先立在这: )



猜你喜欢

转载自blog.csdn.net/sinat_22147265/article/details/80061479