《Revisiting Perspective Information for Efficient Crowd Counting》密集人群检测论文笔记

背景

密集人群检测常常遇到的一个问题:近处的物体在图片上比较大,远处的在图片上比较小,如下所示,图片越往上,人所占据的像素越少,也就是透视失真

本文思路

如果能够提前知道透视信息,对网络而言显然会有提升。根据下图的透视模型


行人在相机上的成像公式如下

则透视关系为

H人高固定为1.75m,所以透视值只和图片中人的高度h有关,这样就可以得到一个透视图

这么做在UCSD和WorldEpo'10数据集OK,但是在密集人群中,因为遮挡,很难测得图片中的人高。一个自然的改进方法就是利用人头的大小反应透视变换,其中人头大小可以通过K近邻确定。得到人头大小后,基于传统的线性变换就可以得到透视信息,不过传统方法基于一系列的假设,如地面是平的,相机没有旋转(正对),采样得到的人头像素值足够精确,并且k近邻确定人头大小的方法取决于人群密度,这些都会导致得到的透视信息不够精确。为此作者提出了一个非线性的方法,如下

\(y_h\)是行数, \(a,b,c\)在在不同的图片中有不同的值(论文里面没说怎么确定这三个参数-。-)。

网络结构

网络结构如上图,个人理解也就是一个attention模块,利用perspective map做attention。

猜你喜欢

转载自www.cnblogs.com/rookiechenv587/p/12374798.html
今日推荐