用于视频显著目标检测的流导向循环神经编码器

摘要

最近，由于深度卷积神经网络，图像显著性检测已经取得了显著进展。然而，将最先进的显著性检测器从图像扩展到视频是具有挑战性的。显著目标检测的性能受到物体或相机运动以及视频中外观对比度的显著变化的影响。在本文中，我们提出了流引导的递归神经编码器（FGRNE），一种用于视频显著对象检测的精确的端到端学习框架。它通过在LSTM网络方面利用光流和顺序特征演化编码方面的运动信息来增强每帧特征的时间连续性。它可以被视为将任何基于FCN的静态显著性检测器扩展到视频显著性目标检测的通用框架。密集的实验结果验证了FGRNE各部分的有效性，并证实我们提出的方法在DAVIS和FBMS的公共基准测试中显著优于最先进的方法。

引言

显著性目标检测旨在识别吸引人们注意的图像或视频中最具视觉特征的物体。由于需要在许多计算机视觉应用中解决这个问题，例如图像和视频压缩[12]，目标分割[37]，视觉跟踪[38]和身份重认证[43]，它引起了很多关注。尽管在过去十年中已经对基于图像的显著性目标检测进行了广泛研究，但由于其高复杂性和缺乏大规模注释的视频数据集，因此基于视频的显著性目标检测的研究较少。

近年来，由于深度卷积神经网络（CNN）的成功展开，静态图像中显著性目标检测的性能已经明显提高了[21,10,18,20]。然而，将这些方法直接应用于视频显著性目标检测是非常重要且具有挑战性的。显著性目标检测的性能受到物体或相机运动以及视频中外观对比度的明显变化的影响。如图1的第二行所示，现有技术的静止图像显著性目标检测器（例如DSS[10]）由于不能保持连续帧之间的显著性目标的视觉连续性和时间相关性而急剧恶化。

认知研究表明，视觉对比是导致特定区域在静态图像中变得突出的关键因素。对于动态视频，由物体运动引起的连续帧之间的差异对人们的注意力更具吸引力[13]。这种时间信息已经在现有的视频显著性目标检测方法中被利用，或者以图形模型[35,3]的形式，或者简单地嵌入在卷积神经网络中[36]。基于图形模型的方法通常采用生成框架，首先从帧内外观对比度信息[3]或帧间梯度流场[35]推断出初始显著性图谱，并进一步结合能量函数和一些启发式时空建模，以鼓励输出显著性图谱的跨框架连续性。由于它们不依赖于训练数据和手工制作的低级特征，因此基于图形模型的方法处理具有复杂语义对比度和物体运动的视频是非常困难的。虽然光流已经在这些方法中被利用，但它仅用于现成模式的启发式后处理。最近，随着深度CNN在静态图像的显著性目标检测中的蓬勃应用，还尝试将CNN扩展到视频显著性目标检测[36,16]。它们简单地连接连续的帧图像并馈送到卷积神经网络以进行时间连续性建模。然而，由于卷积神经网络不具有记忆功能，原始帧图像的这种朴素的聚合以及严重的卷积运算不能很好地表征时域中视频帧的连续动态演化。此外，这种简单的时空建模策略缺乏对物体运动的明确补偿，使得难以在保持时间连续性的同时通过剧烈运动来检测显著性目标（例如，目标移动超出神经网络的接受域）。

在这项工作中，我们提出流引导递归神经编码器（FGRNE），一种端到端学习框架，将任何基于FCN的静止图像显著性检测器扩展到视频显著性目标检测。它通过在LSTM网络方面利用光流和顺序特征演化编码方面的运动信息来增强每帧特征的时间连续性。具体而言，我们采用现成的基于FCN的图像显著性检测器（例如DSS[10]）作为我们用于特征提取和最终显著性推断的主网络，以及用于帧对之间的运动估计的预训练的FlowNet[7]。我们的FGRNE学习通过结合流引导特征变形以及基于LSTM的时间连续特征编码来改进每帧特征。最后一个时间步的输出特征映射被视为我们的编码特征，并被馈送到主网络的上部以进行显著性推断。此外，我们的FGRNE还涉及另一个LSTM模块，以改善具有大时间间隔的帧对的估计光流。FGRNE的所有三个模块（包括运动计算和更新），流引导特征变形以及时间连续性特征编码都与主网络端到端地进行训练。

总之，本文有以下贡献：

•我们引入流引导的递归神经编码器框架来增强每帧特征表示的时间连续性建模，可以利用它来将任何基于FCN的静止图像显著性检测器扩展到视频显著性目标检测。

•我们建议在FGRNE框架中采用光流网络来估计每个帧的运动，这进一步用于特征变形以明确地补偿目标的运动。

•我们建议在我们的FGRNE中利用ConvLSTM进行顺序特征编码，该编码可以捕获时域中外观对比度的演变，并且与特征变形相辅相成，以改善视频显著性目标检测的性能。

相关工作

2.1静态图片显著性目标检测

几十年来，图像显著性目标检测已被广泛研究。传统方法可以分为基于低级特征的自下而上方法[8,15,5]和由高级知识引导的自上而下模型[14,40,22]。近年来，深度CNN将显著性目标检测的研究推向了一个新的阶段，并成为该领域的主导研究方向。基于CNN的深度方法可以进一步分为两类，包括基于区域的深度特征学习[19,42,32]和基于端到端完全卷积网络的方法[20,10,18,33,17]。第一类中的方法将图像分成区域，并将每个区域视为用于深度特征提取和显著性推断的独立单元。由于特征提取和存储中的重要冗余，它们通常是空间和时间浪费的。为了克服这种缺陷，已经开发了基于FCN的深度模型，以便以端到端的可训练方式将原始输入图像直接映射到其对应的显著性图谱。这些方法可以充分利用特征共享机制，并在单个网络前向操作中生成每个区域的分层特征。它们可以产生出色的显著性图谱，并已成为该领域最先进方法的基本组成部分。

与这些基于静止图像的显著性目标检测方法相比，我们关注视频显著性目标检测，其结合时间和运动信息以改善用于显著性目标推断的特征图表示。它可以被视为将一个基于FCN的通用模型框架扩展到视频显著性检测，并且可以很容易地从静止图像显著性目标检测器的改进中受益。

2.2视频显著性检测

与静止图像中的显著性检测相比，由于有效的时空建模的高度复杂性和缺乏大规模注释的视频数据集，检测视频显著目标更具挑战性。在研究界很少探索它。此问题的早期方法可以被视为一些静态显著性模型的简单扩展，具有额外制作的时间特征[24,9]。最近,值得注意的工作通常将视频显著性检测表示为连续帧上的时空上下文建模问题，并将能量函数与手工规则相结合，以鼓励输出显著性图谱的空间平滑性和时间连续性[3,35,6]。然而，这些方法都属于无监督的生成模型，并且依赖于手工制作的低级特征用于启发式显著性推断，因此不能处理需要知识和语义推理的复杂视频。虽然最近Le等人发表了一篇未刊登的著作[16],他们建议将深度CNN特征结合到用于时间连续性增强的时空条件随机域(CRF)框架中，它仍然受到多级流水线(传递途径)的缺陷及其高计算成本的影响。我们最相关的工作是[33]，它利用第二个FCN来改善从基于FCN初始静态显著性网络来生成显著性图谱的时间连续性，将连续帧对的连接以及初始显著性图谱作为输入，并且在前向网络操作中直接映射到重新确定的显著性图谱。由于卷积神经网络不具有记忆功能，因此无法很好地模拟时域中视频帧的连续演进。此外，这种时空建模的粗糙策略缺乏对物体运动的明确补偿，使得难以通过剧烈运动来检测显著目标。

相比之下，我们的方法考虑了特征级别中的时间信息而不是原始输入帧，并且结合了LSTM网络以自然地编码进行顺序特征演化。整个框架经过端到端的训练，推理过程非常高效。此外，我们的方法可以进一步结合这种基于图形模型的后处理技术（例如CRF）用以改善性能。

2.3基于光流的运动估计

光流估计两个连续帧之间的逐像素运动，并广泛用于各种视频分析任务。传统方法主要基于变分公式，主要处理小位移，并且受到高效计算成本的限制。最近，基于深度学习的方法已被用于光流计算[7,28,11]。最具代表性的工作是FlowNet[7]，它表明CNN可以应用于高效的光流推理。还尝试将FlowNet纳入当代深度学习框架，以增强视频特征表示的时间连续性，从而为各种视频理解任务带来性能改进，包括视频识别[45]，目标检测[44]和视频对象分割[29]。

光流已经在现有的视频显著性目标检测模型中被利用，然而，它在后处理中用作辅助运动特征或手工规则以用于时间连续性改进。受[45,44]的启发，我们采用光流技术实现跨帧的特征变形，并补偿物体运动引起的变化。然而，与这些努力不同，运动流在我们的框架中用于动态更新，并且特征变形的结果被利用于时间特征编码而不是特征聚合。此外，我们首先将光流整合到递归神经编码器中，以实现有效的时空特征学习，并在视频显著性目标检测任务中展示了其卓越的性能。

流引导循环神经编码器

给定视频帧序列Ii，i=1,2，...，N，视频显著性目标检测的目的是输出所有帧的显著性图谱，Si，i=1,2，...，N。用于静态图像的最先进的显著性目标检测器主要基于FCN结构[20,23,18,10]。给定预训练静态模型N（例如DSS [10]模型），可以将其视为特征提取模块Nfea，其后是像素方式显著性循环模块Nreg。给定图像I的输出显著性映射S可以被计算为S=Nreg（Nfea（I））。由于缺少特征表示中的时间连续性建模，将该模型直接应用于每个单独的帧通常会产生不稳定且时间上不一致的显著性图谱。

我们提出的FGRNE ε旨在通过额外查看k个前帧的一段来增强特征表示的时间连续性。给定参考帧Ii，编码特征表示为Fi = ε（Nfea（Ii），Nfea（Ii-1），...，Nfea（Ii-k））。由于物体运动及其外观对比度的变化是视频显著性影响因素的两个核心，因此提出的FGRNE采用了现成的FlowNet模型[7]和基于LSTM的特征编码器来分别处理这两个因素。

如图2所示，我们的FGRNE架构由三个模块组成，包括运动计算和更新，运动引导特征变形和时间连续性特征编码。具体而言，我们首先计算相对于参考帧的每个k个前帧的光学流图。每个流动图都以相反的顺序进一步馈送到LSTM以进行运动改进。其次，应用每个时间步骤更新的流图以相应地扭曲特征图。最后，每个扭曲的特征被连续地馈送到另一个LSTM以用于时间连续特征编码，其产生结果特征Fi。因此，输出的显著性图谱被计算为Si = Nreg（Fi）。

3.1 运动的计算和更新

给定参考Ii和k个前帧的窗口，我们首先应用嵌入式FlowNet F[7]来单独估计k个初始流场{Oi→j = F（Ii，Ij）| j = i-1，i-2 ，...，i-k}相对于参考坐标系。得到的流场Oi→j是两个通道的位置偏移图。它计算Ii中每个像素位置（x，y）的像素位移（u，v）到Ij中的空间位置（x'，y'），即（x'，y'）=（x+u，y+v），其中u和v分别表示水平和垂直方向上的像素偏移。

由于FlowNet最初是根据连续帧的配对数据进行训练的，因此可能不足以反映长时间间隔的两帧之间的运动关系。直观地，越接近参考系，估计的运动流越精确。我们可以逐步采用更近的帧的流动图来重新确定更大的时间间隔。基于上述考虑，我们建议将ConvLSTM [39]与基于CNN的FlowNet结合起来，共同学习流动图并以相反的顺序重新定义。

ConvLSTM是传统全连接LSTM的扩展，它在输入到状态和状态到状态连接中都具有卷积结构。在ConvLSTM中传输的所有数据都可以视为3D张量，最后两个维度是空间维度。设X1，X2，...，Xt表示输入到ConvLSTM和H1，H2，...，Ht代表其隐藏状态。在每个时间步骤，ConvLSTM的输出隐藏状态根据其自己的输入以及来自其先前输入的编码过去状态进行更新，其被公式化为

Ht = ConvLSTM（Ht-1，Ct-1，Xt），（1）

其中C是ConvLSTM在其先前时间步的记忆单元状态。在[39]之后，ConvLSTM模块由输入门，忘记门ft和输出门ot组成，整体更新方程可以在（2）中列出，其中'*'表示卷积运算符，'◦'表示矩阵相乘，σ（·）代表sigmoid函数：

为了用ConvLSTM更新光流场，LSTM层展开用于k流场的窗口，隐藏状态的大小设置为与输入流图相同。我们以相反的顺序依次将k初始运动流馈送到ConvLSTM单元，即X1：k = Oi→（i-1），Oi→（i-2），...，Oi→（i-k）。隐藏状态是更新的流域的编码，其进一步馈送到卷积核大小为1×1的卷积层，产生重新定义的流图ROi→j，表示为：

3.2 运动引导特征变形

在[45]的推动下，给定一个重新定义的流图ROi→j，通过应用以下的变形函数，第j帧上的特征映射Nfea（Ij）被扭曲到参考帧，

其中WarpFi→j指的是从第j帧到第i帧扭曲的特征映射。W（·）是双线性变形函数，它应用于特征映射的每个通道的所有空间位置。它在光流ROi→j的所需位置处实现为Nfea（Ij）的双线性插值。

3.3 时间连续性特征编码

虽然特征变形操作可以补偿由目标或相机运动引起的特征不对齐。仅表征视频帧的连续动态演化以及时域中外观对比度的演变仍然是不够的。基于上述考虑，我们建议利用另一个ConvLSTM进行顺序特征编码。具体而言，该ConvLSTM将一系列扭曲特征（包括参考系的特征）作为输入，即，等式（1）中表示的X1：k设置为X1：k = WarpFi→（i-k），WarpFi→（i-k+1），...，WarpFi→（i-1），Nfea（Ii），并且通过计算从t=1到t=k+1的时间特征编码的前向隐藏序列来工作，然后更新输出层。（1）中的状态更新功能可以重写如下：

隐藏状态是迄今为止记忆的未来的编码。并且最后时间步长k+1的隐藏状态是我们的最终特征编码。

4.实验结果

4.1实验设置

4.1.1 数据集

我们在两个公共数据集上评估我们方法的性能：Freiburg-Berkeley运动分割（FBMS）数据集[2,25]和DAVIS [27]数据集。FBMS数据集包含59个视频，其中包含720个带注释的稀疏注释帧。DAVIS是一个新开发的视频对象分割数据集，它包含50个高质量和全高清视频序列，具有3455个密集注释的像素级和每帧真实性。它是最具挑战性的基准之一，涵盖各种视频对象分割挑战，如遮挡，运动模糊和外观变化。

存在另一个数据集SegTrackV2，它是来自[30]中提出的原始SegTrack数据集的扩展数据集，包含14个关于鸟类，动物，汽车和人类的视频，带有1066个密集注释的帧图像。如[36]所述，我们将整个SegTrackV2，FBMS和DAVIS的训练集作为我们的训练集，并在DAVIS和FBMS的测试集上评估我们训练的模型。

4.1.2评估标准

与基于图像的显著性目标检测类似，我们采用precision-recall曲线（PR），最大F-测量和平均绝对误差（MAE）作为评估指标。连续显著性图谱重新调整为[0,255]并使用区间中的所有整数阈值进行二值化。在每个阈值处，可以通过将二元显著性图谱与groundtruth进行比较来获得一对precision和recall值。 PR曲线是从数据集中所有图像的显著性图谱上的平均precision和recall中获得的。F-measure定义为

其中β2设置为0.3，如[1]中所述。我们报告从PR曲线计算的最大F-测量值（maxF）。MAE被定义为二元ground truth G和显著性图谱S [26]之间的平均像素值绝对差值，

4.1.3实施细节

我们提出的FRGNE已经在Mxnet [4]上实现，这是一个灵活的开源深度学习框架网络。FGRNE与任何基于FCN的静止图像显著性目标检测器兼容。在本文中，我们选择最先进的深度监督显著性目标检测（DSS）[10]方法，以公共训练模型为基准，并将更新的DSS与FGRNE嵌入作为视频显著性目标检测的最终模型,进行消融研究时,与其他基准进行比较。在4.3节中，我们将在其他主网络上列出我们提出的FGRNE的更多结果，以证明我们提出的算法的有效性。在训练期间，帧图像在馈入网络之前被调整为256*512。在推断时，我们将图像调整为256像素的较短边。我们使用速度为0.9的SGD以端到端模式训练我们框架中包含的所有组件。学习率初始设定为2.5e-4，每8k训练轮次衰减0.9。损失函数被设置为与主网络相同（例如，DSS[10]采用图像级类平衡交叉熵损失）。窗口大小k受内存限制，在我们的实验中其默认值设置为5。我们还在第4.3节中探讨了不同设置的影响。实验在具有NVIDIA Titan X GPU和3.4GHz Intel处理器的工作站上进行。

4.2与现有技术的比较

我们将我们的方法（FGRNE）与最近的9种最先进的方法进行比较，包括MST [31]，MB+[41]，RFCN[33]，DHSNet[23]，DCL[20]，DSS[10]，SAG[34]，GF[35]和DLVSD[36]。前六个是最先进的静态图像显著性目标检测方法，而后三个是基于视频的显著性模型。为了公平比较，我们使用作者提供的实现或显著性图谱。我们还使用与训练我们的FGRNE相同的训练集来调整所有公共静态显著性模型，并使用重新建立的模型进行比较。

视觉比较如图4所示。可以看出，基于深度学习的静态显著性模型在独立观看时可以生成看似有希望的显著性图谱，当放入整个序列时，它们不出意外地不一致。虽然现有的基于视频的模型可以在具有相对轻微物体运动的视频上产生一致的结果，但它们仍然无法处理外观（物体或相机运动）发生显著变化的视频。特别值得注意的是，我们提出的方法结合了现成的DSS[10]模型作为我们的基线，它可以学习通过时间连续性来改善原始特征，并最终产生优于原始特征的优化结果。通常，我们的方法在各种具有挑战性的情况下生成更准确和一致的显著性图。

作为定量评估的一部分，我们展示了图3中PR曲线的比较。如图所示，我们的方法（FGRNE）在DAVIS和FBMS上都显著优于所有最先进的静态和动态显著性目标检测算法。此外，表1中列出了最大F-测量值和MAE的定量比较，我们提出的方法将FBMS和DAVIS上最佳性能静态算法的最大F-测量值分别提高了5.24％和2.57％，并相应地降低了MAE的17.10％和8.57％。与性能最佳的视频模型相比，我们的FGRNE在FBMS和DAVIS数据集上分别将最大F测量值提高了12.50％和14.16％，并相应地将MAE降低了18.18％和50％。一个有趣的现象是，由于出色的完全卷积网络，目前最好的静态显著性模型实际上优于基于状态到视频的显著性目标检测方法。

4.3消融研究

4.3.1流导向循环神经编码器的有效性

如第3节所述，我们提出的FGRNE涉及三个主要模块，包括运动流更新，运动引导特征变形和时间一致特征编码。为了验证这三个模块中每个模块的有效性和必要性，我们将FGRNE与其表2中的五个变量进行比较。

Sa指的是从单帧基线模型生成的显著性图谱。为了便于比较，我们还使用训练集的各个帧来微调模型。它在DAVIS的测试集中达到最大Fβ= 0.775且MAE = 0.047，其已经优于大多数最先进的方法。这表明经过调整的基线模型具有竞争力，可作为评估的有效参考。与我们的整个框架相比，显示将FGRNE嵌入基线模型完全导致F-测量值增加2.97％，同时将MAE降低31.91％。

Sb是指基线模型上的朴素特征聚合算法。参考帧的特征简单地更新为观看窗口中的特征映射的加权和，其中第j帧的权重wi→j设置为1/(i-j+1)。它表示为

它也像我们训练FGRNE一样经过端到端的训练。如表中所示，该变量的F-测量值降至0.768，而MAE增加至0.052，甚至低于基线模型。它表明这种天真的特征聚合不适合顺序特征建模。我们推测其原因在于场景结构和外观变化引起的特征错位。

Sc是指基线模型上的简单特征编码算法，以及FGRNE的退化变量。关闭运动更新模块并且不使用流动运动，即，在训练期间运动流Oi→j被设置为全零。该变体也以与FGRNE相同的方式端到端地进行训练。如表中所示，F-指数略微增加至0.777，而MAE则大幅下跌23.40％至0.036。然而，性能仍然远低于提出的FGRNE。这表明递归神经编码器可以学习利用先前帧的特征来改善参考帧的时间连续性。但是，仅基于LSTM的特征编码是不够的。

Sd将运动引导特征变形添加到Sb模型，而不启动运动演化更新模块。它实际上是一个流引导的特征聚合程序。它将F-指数提高1.56％至0.780，同时将MAE降低30.77％至0.036 W.r.t Sb的表现。这意味着特征对齐是特征聚合之前的重要操作。Sa的明显性能增益也揭示了运动建模对视频显著性目标检测的重要性。

Se将运动引导特征变形添加到Sc的模型中。它是FGRNE的退化版本，没有运动流更新。所有其他因素保持不变。它将最大F-测量值提高2.06％至0.793，并将MA的性能降低2.78％至0.035 w.r.t，这意味着运动引导特征扭曲的性能增益与基于LSTM的时间连续性建模相辅相成。事实上，物体运动和外观对比度的变化是视频显著性影响因素的两个核心，这与我们提出的FGRNE中两个互补模块的设计完全一致。

Sf指的是提出的FGRNE方法，其打开Se中的运动流演变更新模块。它进一步使F-指标上涨0.63％至0.798，同时将MAE下调8.57％至0.032。这表明反向LSTM可以帮助重新确定运动流，这弥补了FlowNet在估算具有大时间间隔的帧对的光流时的不足。

此外，我们还列出了我们提出的FGRNE的每个变体的运行时间成本比较。如图所示，将FGRNE合并到静态模型每帧额外花费94ms。注意到在给定窗口中的所有帧的显著性推断期间共享特征提取，并且我们的算法以滑动窗口模式运行。因此，扩大窗口大小不会导致时间计算成本的严重增加。

4.3.2特征提取器选择的灵敏度

如第3节所述，我们的FGRNE依赖于预先训练的静态显著性检测器作为我们的主网络。主网络分为特征提取器和逐像素分类模块。原则上，它可以在任何层分割，因为主网络是全卷积的。我们探讨了将FGRNE添加到不同特征提取水平对最终结果的影响的效果。我们分别尝试将特征编码添加到主DSS模型的Conv3_3，Conv4_3和Conv5_3的输出特征映射中。实验结果表明，FGRNE能够改善特征图的所有尺度上的时间连续性，当选择Conv3_3，Conv4_3和Conv5_3的特征图时，其最大值分别为0.777,0.789和0.798。其中，结合FGRNE使用从Conv5_3中提取的特征可以获得最大的性能增益，从而使F-measure增加2.97％，并将MAE降低8.57％，降至单帧静态版本。

4.3.3窗口大小设置的灵敏度

我们提出的FGRNE通过利用窗口k前帧来学习促进编码特征的时间连续性。受到我们工作站内存的限制，k可以设置为最大值10。我们已经探讨了k= {1,2,3,5,8,10}的不同设置对显著性目标检测性能的影响。图5中的结果表明，使用5和8个前帧的训练达到非常接近的准确度，k=5表现稍好。默认情况下，我们在实验中的训练和推理期间设置k=5。

4.3.4主模型选择的灵敏度

如第3节所述，我们采用基于FCN的静态显著性检测器作为我们FGRNE的主模型。为了证明我们提出的方法广泛适用于任何基于FCN的主网络模型，我们申请将FGRNE纳入最近发布的另外两种基于FCN的显著性目标检测方法，包括DCL[20]和MSRNet[18]。对于后者，由于机器内存的限制，我们只对其单一规模版本即SSRNet进行实验。如图6所示，对F-measure和MAE的实验评估表明，我们的FGRNE可以被训练以有效地增强特征表示的空间时间连续性，这极大地提高了视频显著性目标检测的性能。

5.与无监督视频目标分割方法的比较

视频显著性目标检测的问题设置与无监督视频对象分割的问题设置非常相似，除了其目标是计算每个像素的显著性概率值而不是二进制分类。为了与最先进的无监督视频对象分割方法进行公平比较，我们将FGRNE与基于静态ResNet-101的像素方式二元分类模型结合在一起，其中的特征是从Conv5_x的最终输出特征图中提取的。我们根据平均IoU评估我们在DAVIS和FBMS数据集上提出的方法，并与一些最先进的方法进行比较。如表3所示，我们提出的方法在DAVIS和FBMS上分别优于现有技术的LVO [29]，IoU测量值分别为2.96％和14.0％。注意到如[29]中所述，在DAVIS的排行榜上报告的mIoU值为75.9％包括CRF作为后处理，没有CRF的LVO的结果是70.9，如他们的论文中所报道的。为了公平比较，我们还在表格中报告了有和没有CRF的mIoU结果。可以看出，我们提出的CRF方法在DAVIS和FBMS上也分别优于LVO 1.6％和16.90％。

6.结论

在本文中，我们提出了一个用于视频显著性目标检测准确的端到端框架。我们提出的流动引导循环编码器旨在改善深度特征表示的时间相干性。它可以被认为是将任何基于FCN的静态显著性检测器扩展到视频显著性对象检测的通用框架，并且可以从未来基于图像的显著性目标检测方法的改进中容易地获益。此外，由于我们专注于学习增强的特征编码，因此可以轻松扩展到视频分析的其他应用程序，并且值得在将来进行探索。

18.Flow Guided Recurrent Neural Encoder for Video Salient Object Detection