25.Two-Stream Convolutional Networks for Dynamic Saliency Prediction

Two-Stream Convolutional Networks for Dynamic Saliency Prediction

用于动态显著性预测的双流卷积网络

摘要

近年来,图像中的视觉显著性估计在计算机视觉领域引起了很多关注。但是,预测视频中的显著性却受到的关注相对较少。受最近基于静态显著性模型的深度卷积神经网络成功的启发,在这项工作中,我们研究了两种不同的双流卷积网络,用于动态显著性预测。为了提高模型的泛化能力,我们还为此任务引入了一种新颖的,基于经验的数据增强技术。我们在DIEM数据集上测试我们的模型,并针对现有模型报告优异的结果。此外,我们通过在静态图像估计的光流上微调我们的模型,对最近提出的静态显著性数据集SALICON进行迁移学习实验。我们的实验表明,以这种方式考虑运动可以有助于静态显著性估计。

 

引言

视觉显著性模型近年来获得了极大的关注。这种兴趣日益增长的原因在于这些模型在各种计算机视觉问题中的有效使用,例如分割,目标检测,视频摘要和压缩,其中提取的显著性图谱被用作视觉特征或特征选择机制。从广义上讲,显著性模型可以根据它们是否试图预测人眼固定[2]或检测显著对象[1]而分为两类。根据它们处理的输入类型,模型可以进一步分为静态和动态显著性模型。静态模型将静止图像作为输入,而动态模型则处理视频序列。

与在静止图像中执行相同任务相比,预测视频中的显著性给研究人员带来了巨大挑战。首先,动态模型在计算显著性图谱时需要考虑场景的空间和时间特征。 静态显著模型采用强度,颜色和方向等视觉特征,对于动态显著性,需要更多地关注运动特征,因为人类倾向于将眼睛固定在运动中的物体上。在这方面,动态显著性模型的早期例子扩展了静态显著性模型,因此它们考虑了额外的运动特征[8,7,5,30]。此外,从新颖的角度来看,有限数量的动态显著性模型接近视频中的显著性预测[10,23,29]。

最近有兴趣将深度学习应用于静止图像中的显著性预测[19,25,18,32,37]。这些模型都采用深度神经网络,并在大多数基准数据集中提供最先进的结果。在本文中,我们的贡献是三倍的。首先,受这些模型成功的启发,我们研究了用于动态显著性预测的卷积神经网络。我们研究了使用双流卷积神经网络架构,该架构将空间流与时间流进行整合。这些网络模型通过以端到端方式学习的过滤器同时利用外观和运动信息来预测给定视频帧的显著性图。特别是,我们提出了两种考虑晚期或早期融合策略的不同模型。据我们所知,我们是第一个应用动态显著性的双流深度模型。其次,我们为此任务提出了一种数据增强技术,以改进卷积网络的泛化。DIEM数据集[24]的实验验证了我们模型的有效性和我们的数据增强策略。第三,我们证明迁移学习可以用于通过从静止图像中提取的利用光流信息来预测静态显著性[33]。SALICON数据集[13]的实验表明,考虑运动可以提高预测精度。

 

相关工作

文献中的显著性评估模型通常被分为两组:自下而上方法[22,26,35]和自上而下方法[16,36]。自下而上的方法通常尝试通过使用诸如颜色,强度,方向之类的低级视觉提示来识别人类将他们的眼睛固定在图像中的显著区域,并且他们不使用关于图像内容和上下文的任何先验信息。相反,自上而下的方法直接使用与上下文相关的语义提示和关于场景的内容信息,并且通常考虑诸如在场景中寻找人的特定任务。

在这项研究中,我们感兴趣的是对动态场景的视觉注意力的免任务自下而上建模。动态显著性的早期模型扩展了静态显著性模型以包括运动特征。例如,Cui等人[5]通过调频模型识别视频帧的显著部分。特别地,它们对沿着空间和时间平面的视频帧的傅里叶谱进行谱残差分析,以从背景中提取运动中的前景物体。 郭等人[7]对视频帧的相位谱进行类似的频谱分析。Harel等人[8]提出了一种显著性模型,其中提取的特征图通过全连通图表示,最终的显著图通过图论方法估计。Seo和Milanfar[30]利用时空体积的自相似性来预测显著性。

一些研究人员设计了专为动态显著性设计的新型模型。例如,Hou [10]提出了一种模型,该模型考虑了视觉特征的稀有性,并通过对提取的视觉特征执行熵最大化来提取显著性图。马特等人[23]将动态显著性预测表示为分类任务,并提出基于学习的显著性模型来整合几个视觉线索。在另一项研究中,Rudoy等人[29]还提出了一种基于学习的显著性预测框架。他们的表述不同于Mathe等人的模型[23],因为他们考虑了一组稀疏的凝视位置,他们试图在连续的视频帧上预测条件凝视过渡。

近年来,深度神经网络已应用于许多计算机视觉问题,如图像分类[9],目标检测[6],活动识别[38],语义分割[21]和视频分类[15],取得了优异的结果。这些方法针对特定任务执行分层特征学习,其通常提供比手工特征更好的结果。在这些成功的推动下,最近还引入了许多基于深度学习的显著性模型[19,25,18,32,37]。Vig等[32]采用深度网络集合,在预测显著性图时基于生物学启发的分层特征。Kruthiventi等[18]采用全卷积神经网络架构进行显著性估计任务。Kmeumrer等人[19]使用通过AlexNet[17]模型的不同层次学习的深层特征,并学习如何将它们组合用于显著性估计。赵等人[37]通过考虑局部和全局图像上下文的深度学习框架进行显著对象检测。潘等人[25]最近提出了两种基于卷积网络的模型,它们具有不同的层大小,通过将显著性预测作为回归任务。值得注意的是,所有这些模型都被提议用于预测静止图像而非视频的显著性。

在这些基于深度学习的显著性模型的推动下,在我们的论文中,我们研究了卷积神经网络在动态显著性估计中的应用。更具体地,我们通过连续视频帧之间的光流提取时间信息,并研究在显著性预测中使用该附加信息的不同方式。我们模拟了两种不同的双流卷积网络,它们通过采用早期和晚期融合策略来组合空间和时间信息。据我们所知,我们的模型是文献中第一个基于双流卷积神经网络的动态显著性模型。

 

模型

本研究的目的是研究动态显著性预测的不同深层架构。最近,深度卷积网络在计算机视觉中的许多分类和回归任务中提供了极其优越的性能。虽然这些网络的较低层响应原始图像特征,例如边缘,角落和共享的共同图案,但较高层提取诸如对象部分或面部之类的语义信息。如前所述,这些低级和高级特征在估计视觉显著性方面显示出重要和互补性。为此,我们研究了图1(a)和1(b)(空间和时间)中的两个基线单帧网络和两个通过实现两个不同粒度级别的空间和时间线索组合的双流网络[31]。不同的融合策略:晚期融合和早期融合,如图2(a)和2(b)所示。我们在下面详细描述这些模型。

空间流网。对于基本的单帧基线模型,我们使用[25]中最近提出的静态显著性模型。如图1(a)所示,这个卷积网络类似于VGG-M模型[4]-主要区别在于最后一层是反卷积(分步跨度卷积)层,以上采样到原始图像大小。请注意,它不使用任何时态信息,仅利用外观信息来预测静止视频帧中的显著性。

时间流网。使视频中的显著性预测与图像本质上不同的原因是我们的注意力受到前景物体的局部运动对比度的极大影响。为了理解时间信息对显著性预测的贡献,我们自己开发了第二个单帧基线。如图1(b)所示,该模型只是空间流网络的复制品,但输入是以光流图像的形式提供的,如[31]所示,由两个后续帧计算得出。一些样本光流图像如图3所示。

后期融合网络。后期融合模型如图2(a)所示。它将视频帧和相应的光流图像作为输入,并通过最新卷积层的元素融合将空间和时间单帧网络合并在一起。从这个意义上说,它直接结合了最高层的空间和时间信息。在该融合步骤之后,它还使用反卷积层来产生上采样显著图作为最终结果。

 


早期融合网。早期融合模型在早期阶段集成空间和时间流,具体通过在单帧模型卷积融合的第四卷积层之后应用卷积融合。也就是说,来自单帧模型的相应特征图被堆叠在一起,并且它们与一组11个卷积相结合。如图2(b)所示,接下来是许多卷积和最终的反卷积层,以产生显著图。

 

3.1实施细节

网络架构。对于单帧模型,我们采用[25]中提出的深度卷积网络,其输入大小为640×480×3像素,可以概括为C(96,7,3)→ LRN → P → C(256,5, 2) → P,C(512,3,1)→ C(512,5,2)→ C(512,5,2)→ C(256,7,3)→ C(128, 11,5)→ C(32,11,5)→ C(1,13,6)→ D,其中C(d,f,p)表示卷积层,其中d滤波器的大小为f*f,用填充p和步长为1施加到输入端。 LRN表示执行一种横向抑制的局部响应归一化层,P表示具有步长为2的3*3个区域上的最大池化层。最后,D是具有尺寸8*8*1的滤波器的反卷积层,其具有步长为4和填充2它将最终的卷积结果升级到原始大小。除最后一个之外的所有卷积层之后是ReLU层。空间和时间流模型的输入不同,即,当接受静止图像时,另一个接受光流图像。

所提出的双流模型采用不同的融合策略将不同阶段的空间和时间卷积网络融合在一起,如图2所示。在后期融合模型中,顾名思义,单流流网络在最后一个之后组合卷积层C(1,13,6)通过应用逐元素最大化操作,其后是单帧模型中的相同反卷积层D.另一方面,早期融合模型在第四卷积层C(512,5,2)之后执行卷积融合。也就是说,所得到的特征图被堆叠在一起并由卷积层C(512,1,0)进行积分,卷积层C的权重用单位矩阵初始化。其余层与单帧模型的层相同。

预处理。在我们的实验中,我们使用DIEM(动态图像和眼动)数据集[24],这将在实验部分中详细描述。由于我们的网络接受大小为640*480*3像素的输入并输出相同大小的显著图,因此所有视频和标签固定密度图在训练之前都会重新调整为此大小。我们使用DeepFlow [34]的公开实现,并且我们另外从后续视频帧的重新缩放版本中提取光流信息。然后通过将水平和垂直流动分量以及流的大小堆叠在一起来生成光流图像。一些示例光流图像如图3所示。


数据扩充。数据增强是一种广泛使用的方法,用于减少过拟合的影响并改善神经网络的泛化。然而,对于显著性预测,诸如裁剪,水平翻转或RGB抖动之类的经典技术不是非常合适,因为它们改变了用于收集数据的眼睛跟踪实验中使用的设置。[14]中的实验表明,人们对相同图像的高分辨率和低分辨率版本的外观非常一致。因此,我们处理所有视频序列并通过将它们下采样2倍和4倍来产生它们的低分辨率版本。我们注意到,在降低光流图像的分辨率时,还应重新调整幅度以匹配下采样率。

训练。我们使用[25]中预训练模型的权重来设置空间和时间流网络的初始权重。在优化模型时,我们使用Caffe框架[12]并使用随机梯度下降与预测显著性图和标签之间的欧几里德距离。网络训练超过200K次迭代,我们使用批量大小为2的图像,动量为0.9,重量衰减为0.0005,每10K次迭代减少0.1倍。

实验结果

接下来,我们首先在DIEM数据集[24]的动态显著性模型的基础上,对提出的网络架构进行了实验评估。然后,我们在SALICON[13]数据集上描述了我们的迁移学习实验,在实验中我们证明了静态显著性估计也可以从使用运动信息中获益。

DIEM实验

我们通过实验验证了所提出的深层动态显著网络对DIEM数据集的有效性[24]。该数据集由84个高清自然视频组成,包括电影预告片,广告等。每个视频序列具有从大约50个不同的人类主体收集的眼睛固定数据。在我们的评估中,我们通过考虑Borji[3]等人报告的相同实验设置来评估我们提出的所有深度动态显著性网络(空间流网络,时间流网络,晚期融合网络,早期融合网络)。具体来说,我们用64个视频序列训练这些网络中的每一个,并在剩余的20个代表性视频上测试它们。

在图4中,我们提供了一个样本视频帧上提出的网络的样本定性结果以及标签人类固定图。结果清楚地证明了运动在动态显著性估计中的重要性。空间流网络确实使用外观信息而不是运动,提供了不准确的显著性图并且错过了运动中的前景对象。时间流网络提供了更好的结果,但确实将所有移动区域识别为显著。后期融合网络可以获得更准确的结果,因为它将外观特征与最终预测层中的运动特征相结合。早期融合网络在早期层中结合了空间和时间信息,因此可以获得最佳结果,从而可以学习在更高层中处理组合外观和运动信息的过滤器。补充材料中也提供了样品结果。

我们通过使用shuffled AUC度量[27]和χ2距离来定量评估所提出的网络模型。曲线下面积(AUC)度量将显著图视为分类图,并使用接收器操作员特征曲线来估计预测显著性图在捕获标签眼睛注视中的有效性。特别是,我们采用了shuffled版本的AUC(sAUC),它考虑了显著性数据集中观察到的中心偏差。另一方面,χ2距离将显著图视为概率分布图,并相应地将预测图与标签人类注视图进行比较。完美的预测模型需要为sAUC度量给出1分,并且需要为χ2距离提供接近0的距离。对于每个测试序列,我们计算sAUC分数和每帧的χ2距离并将它们平均。表1列出了提出的动态显著性网络的定量结果。从表中可以看出,空间流网络在两个指标方面都提供了最差的结果。早期的融合网络通常比其他所有网络架构都能提供更好的结果。可以认为,这种成功背后的原因在于早期整合了早期层中的外观和运动特征,这允许层次结构的更高层次中的过滤器为显著性预测任务学习更有效的特征。当我们采用我们在上一节中讨论过的数据增强策略时,它进一步提升了分数。我们还将早期融合网模型与文献中的四种不同方法进行了比较。这些是GVBS [8],PQFT [7],Hou和Zhang的[10]以及Rudoy等人的[29]动态显著性模型,它们是DIEM数据集中表现最佳的模型。虽然图5显示了一些样本视频帧的定性结果,但表2提供了定量评估结果。从这些结果可以看出,所提出的具有早期融合策略的双流卷积网络模型在sAUC分数和χ2度量方面优于所有现有模型。

 

 

4.2在SALICON上迁移学习实验

在瞬间捕获静止图像,但该单个图像帧具有足够的信息,其允许预测成像的场景的固有运动。受到这种观察的启发,沃尔克等人[33]提出了一种适用于静态图像的深度光流预测模型。对于最后一组实验,我们使用此预测模型来估计输入图像的相关运动图,并将其与原始图像一起用作我们的双流Early Fusion网络模型的输入。在图6中,我们提供了一个样本图像,其中包含一个男人在房子前面。这是一张静止图像,但我们可以清楚地了解这个男人正在扔飞盘的情景。如图所示,光流模型正确地提取飞盘作为场景中的移动物体。这使得我们的动态显著性网络能够更好地理解图像并提供更准确的显著性图,而深度卷积模型仅使用外观信息。

 


我们对最近提出的SALICON数据集进行了实验[13]。这个大型数据集包含20000个自然图像,所有这些图像都来自MSCOCO数据集[20],并通过鼠标光标跟踪收集固定数据。为了评估,将数据集分成10000个训练,5000个验证和5000个测试图像。固定数据仅适用于训练和验证分割,测试由评估服务器在外部执行。对于实验,我们使用[33]对训练图像和从这些静态图像中提取的光流图像微调我们的早期融合模型。在图7中,我们提供了由早期融合网络生成的一些示例显著图。我们还在表3中提供了一些定量结果,我们将结果与一些最先进的静态显著性模型进行比较。对于此评估,我们使用AUC,sAUC和交叉关联(CC)指标。如表中所示,我们提出的早期融合网络模型在现有模型中提供了最佳sAUC评分,并且与深度卷积网络相比,其余指标的结果具有极高的竞争力[25]。虽然运动可能不是SALICON数据集中所有图像的主要因素,但我们的结果表明从静止图像预测的运动信息可能是有用的。

结论

我们为视频中的显著性预测提出了两种新颖的架构。我们的模型基于双流卷积网络,在大型和多样化的数据集上以端到端的方式进行训练,它们提供了结合空间和时间信息的有效方法。我们还提出了一种有根据的,有效的数据增强方法,该方法采用低分辨率版本的视频帧和标签显著图。我们证明我们的模型在数量上优于DIEM数据集的最新技术。此外,通过利用静态图像中的自动预测光流,我们可以通过运动信息从运动信息中获取信息,我们可以在SALICON数据集上模拟我们的模型。

 

猜你喜欢

转载自blog.csdn.net/weixin_40740160/article/details/83903718
今日推荐