论文阅读：Illumination-aware Faster R-CNN for Robust Multispectral Pedestrian Detection

最近在做跨模态的性人检测，主要是基于KAIST数据集。这是这个数据集上目前结果最好的一篇文章。

简介
不同阶段融合模型比较
光照导向的融合模型
光照感知网络（IAN）

简介

这篇文章是用KAIST这个数据集做行人检测最新效果最好的文章。
它主要做了两件事情。
第一就是基于Faster R-CNN 在网络的不同阶段，将热红外特征或者结果和可见光的特征或者结果进行融合。第二，是基于第一步的实验结果，第一步实验发现各种融合模型都有一个特点就是在光线强的时候，融合模型外要比单独的可见光、热红外效果好；而在光弱的时候，融合模型不如单独使用热红外。所以作者就提出了一种光照导向的融合模型，根据光照情况，确定权值，在最后的输出结果层进行融合。
其实概括起来，本文就是在同一种结构上找怎么样融合才能更好的用热红外辅助可见光来实现最好的结果。

融合模型比较

基于Faster R-CNN作者提出了在不同阶段进行融合的6种结构。
这里写图片描述
(a是在输入层、（b是在浅层特征，（c是中层特征（d是在全连接层（e （f是在最后的输出scores上进行融合。
作者用这6种结构做了实验，并且将白天和夜晚的结果也进行了对比。结果如下：

从结果中可以得出两点：
一是前面的6中结构中，Halfway Fusion和score fusion的结果是最好的。
二是无论哪种结构，在白天光照强的情况下，融合模型都会比单独使用可见光和热红外的效果好。但是在夜晚，单独使用热红外的效果比容和模型要好，而且高出很多。也就是说，来自彩色图像或热图的行人检测可信度和照明条件有关。

光照导向的融合模型

基于上述结果，作者提出了一种照明感知或者说光照导向的结构。这个结构主体还是基于Faster r-cnn对分类结果即最后的scores进行融合。可见光和热红外的网络是独立的，唯一的联系就是在用RPN产生proposals的时候是用的二者融合的特征。然后多出来一个网络是用来区分可见光的图像是白天的还是夜晚的从而得到不同的权值用于对可见光热红外的检测score进行融合。
融合网络结构如下图：
这里写图片描述

结果

模型在KAIST数据集上结果：
这里写图片描述
其实可以看到他的结果和表中的Kong et al.[16]（即RPN+BDF）比，MR(o)比RPN+BDF低，MR（I）虽然高了0.3个百分点，但本文这个模型比RPN+BDF的那个模型要复杂。有些得不偿失。

光照感知网络

光照感知网络实际上是一个很简单的二分类网络，最后用softmax输出概率，并把白天的score记为iv。对于最后的权值要达到这样的要求是：白天，可见光起的作用要大，但热红外也不能太小。夜晚热红外要占主导。所以作者最后建立了一个权值公式来达到上述要求。

光照感知网络

Illumination-aware Faster R-CNN for Robust Multispectral Pedestrian Detection

论文阅读：Illumination-aware Faster R-CNN for Robust Multispectral Pedestrian Detection

简介

融合模型比较

光照导向的融合模型

结果

光照感知网络

猜你喜欢