论文理解MoC-CNNs

论文理解《Mixture of Counting CNNs: Adaptive Integration of CNNs Specialized to Specific Appearance for Crowd Counting》

创新点：使用专门针对特定的外观的多个CNN来预测目标的数量；基于Mixture of Experts(MoE)的思想（ref论文【1】）；

（有点像Switch CNN?）

解决问题：传统的人群计数方法通常只利用一个预测器（比如回归和多类预测器），造成的问题是：无法对外观大幅度改变的目标进行计数；

提出方法：使用专门针对特定的外观的多个CNN来预测目标的数量，并且这些cnn是根据测试图像的外观进行自适应选择的。

方法效果：在人群计数方面，计数误差比单个CNN或者固定权重的CNN整合更低；

Introduction

人群计数有 三个困难的问题：（1）计数目标之间的遮挡问题；（2）小目标由一些小像素体现出来；（3）由于目标的规模变化引起的外观变化；

本文主要解决问题（3）；

MoC-CNN由两类CNN组成：

（1）对应特定外观目标的CNN，也称为expert CNN；预测图像中的目标数目；

（2）根据目标的外观选择相应的expert CNN，称为gating CNN；预测expert CNN的概率，作为expert CNNs预测结果的整合权重依据；

最后，图像中的目标数目是expert CNNs的平均权值；

Related Works

Perspective map:解决透视扭曲简洁高效的一种方法；但是有两个缺点：（1）首先，如果拍摄地点改变了，我们必须手动重新设置透视地图的参数。（2）第二个缺点是，标准化对于只有相似大小的目标（例如人）是有效的。然而，当目标的大小改变时（例如，显微镜图像中的粒子和区域图像中的车辆），这种标准化是无效的。

Density map:用高斯分布取代点标注；优点是对图像边界的模糊目标具有鲁棒性；缺点是不考虑尺寸的改变

指出MCNN方法等也是使用了一个预测器，对外观变化不具有鲁棒性；