【论文笔记】ChangeNet:基于孪生神经网络和FCN的变化检测网络

本文是论文《ChangeNet: A Deep Learning Architecture for Visual Change Detection》的阅读笔记。

视觉变化检测是一个高水平的推断任务,其目的是精确地辨别一张参考图像(reference image)和一张新的测试图像(test image)之间的变化。本文提出了一个基于深度学习的变化检测网络ChangeNet。

一、相关工作

给定测试图像 I t e s t I_{test} Itest和参考图像 I r e f I_{ref} Iref,它们的大小都为 w × h × d w\times h\times d w×h×d,其中 d d d是图像的通道数,变化检测问题就是对比两张图像的特征,并把变化的类别标签从集合 l = 1 , 2 , . . . , N l=1,2,...,N l=1,2,...,N对齐到变化图 I w × h I_{w\times h} Iw×h的每个元素,其中 N N N是定义的语义变化的类别数。

变化检测中的变化可以是场景中物体的增加或消失,也可以是物体或场景结构的转变。最简单的方法之一是直接计算两张图片像素级的差,但是这种像素级的做法要求两张图像事先已经配准好,且图像属性的变化相对最小。

由于两张图像的光照、对比度、光照质量、分辨率、噪声、比例(scale)、姿势(pose)和遮挡(occlusion)等方面的不同,给变化检测任务带来了挑战。其中,后三者不是所有的变化检测问题所共有的,并且可以通过抽帧来解决。

如上图所示,第三张图中蓝色的部分为ground truth,虽然其他物体,如雪、落叶等也有变化,但本质上的变化是电线杆(或者是树?)的垃圾。

二、网络结构

ChangeNet的网络结构包括使用ResNet抽取特征,并结合卷积输出不同层度的变化定位信息。然后使用相同的网络对检测到的变化进行辨别,并输出物体级的带标签的变化检测结果。

ChangeNet的输入是一张参考图像和一张测试图像,输出是一个对于变化区域的检测、定位和分类图。整个网络使用了孪生神经网络(siamese network)和FCN,其结构图如下图所示。图中蓝色框和绿色框在一起算是孪生神经网络,其中CP表示ResNet残差块,FC表示卷积核大小为 1 × 1 1\times1 1×1的全卷积层。先用孪生神经网络(两个结构相同参数不同的网络)分别对两张图片进行特征提取,然后使用FCN对提取的特征进行整合,最后相加并用softmax进行分类。

使用平行权重共享网络(parallel weight tied networks)进行特征提取,这确保可以从两种图像中学到相同的特征。此外,还结合了不同水平的卷积层的输出,以捕获物体的粗糙信息和细节信息。

孪生神经网络是一个参数个数和值相同的权重共享网络(weight tied network),这种方法在保证效果的同时节省了内存和训练时间。而与标准的孪生神经网络不同,ChangeNet中用到的孪生神经网络反卷积层的参数是不同的,其他层参数相同,这样效果提升了5%。

此外,由于训练数据有限,还使用了迁移学习的做法,使用ResNet50作为预训练模型。残差块主要由卷积层、批正则化(BN)和ReLU激活函数组成,其示意图如下。

最后,所有concate起来的输出(图中三个FC后面橙色、红色和蓝色线的输出)先做和,然后用 1 × 1 1\times1 1×1的卷积核将维度减少到 N N N,再使用同一个softmax分类器进行分类。得到的变化图的大小为 w × h × N w\times h \times N w×h×N

三、实验

实验使用了三个数据集:TSUNAMI数据集、Google Street View(GSV)数据集和VL-CMU-CD数据集,VL-CMU-CD数据集具有11种不同的结构变化类别,该数据集中的图像对是在不同的视角、不同的灯光条件下拍摄的。将三个数据集按7 : 1.5 : 1.5的比例划分成训练集、验证集和测试集。

上图是不同方法的结果示意图,可以发现ChangeNet的效果最接近于ground truth。

上图是在VL-CMU-CD数据集上的像素级和物体级的变化检测分类结果表。其中的f-score不知道是什么,文章中也没有给出解释和计算公式。

上图是ChangeNet五折交叉验证时二分类(改变或为改变)和多分类(每个物体的种类)结果表。

上图是ChangeNet的各种指标结果表。有98.3%的像素被分类正确成“变化的”,其中,82.58%的像素被分类成正确的类别。Frequency weighted IoU是根据每个变化类别出现的频率加权计算得到的IoU值,Mean IoU则是没加权的结果。

几种方法效果对比表,FPR是假阳性率,Pr是准确率,Re是召回率,F1是f-score。

ChangeNet在三个数据集上的结果表。

三种方法在三个数据集上的f-score值。

猜你喜欢

转载自blog.csdn.net/zuzhiang/article/details/114260863
今日推荐