Fast and Accurate Online Video Object Segmentation via Tracking Parts
CVPR 2018
提出的背景:
很多基于CNN的方法都是在第一帧中对对象开始大量的微调,这对在线视频分割来说是耗时的。为此本文的方法是接收图像后立即分割,从而实现在线视频目标分割问题。
难点:
相机运动、对象变形、遮挡和混乱背景。特别地,对于在线应用来说,当方法被要求不访问未来帧时也能有好的鲁棒性和快速性,会出现显著的问题。
现有方法可分为无监督学习和半监督学习:
无监督学习:在无先验信息时对运动对象进行分割,如initial object masks。缺点是不能分割多对象。也有一些要求知道整个视频的信息才能进行分割,不能应用于在线应用。无监督学习的缺点:由于不同实例和动态背景之间的运动混淆,这些无监督的方法无法分割特定的对象。
半监督学习的缺点:通常严重依赖于通过第一帧、数据增强、在线模型适应和光流联合训练对模型进行微调。
解决:为了减轻计算负载的问题,通过在第一帧中通过整个视频传播对象掩码,开发了几种方法。在没有充分利用第一帧信息的情况下,这些方法在长时间传播后会出现错误积累,因而其性能不如其他方法。该算法采用了基于部分的跟踪,并始终通过基于相似性的部分聚集策略来关注第一帧。
目标:
在没有访问未来帧的情况下快速的分割。
贡献:
1、提出了一种适用于在线任务的快速、准确的视频对象分割方法。
2、开发了基于部分的跟踪和基于相似性的聚合方法,在不增加计算负载的情况下,有效地利用第一帧中包含的信息。
3、设计了一个ROI Segnet,它以零件的边界框作为输入,并为每个零件输出分割蒙版。
主要思想:
数据集是DAVIS benchmark dataset(基准数据集)
1、part-based tracking
基于部分的跟踪方法处理如变形、遮挡、背景杂乱等问题;
提出的方法:1、第一帧产生目标提议,基于初始掩码重叠分数选择代表性部分;2、每个部分应用跟踪器,为后续帧提供时间一致的兴趣区域(ROI)。
2、ROI Segmentation
基于被跟踪的零件边界框,构造感兴趣区域分割网络,生成区域掩模;
只要每个部分在下一帧中被定位,构建一个基于CNN的ROI Segnet来预测属于目标对象的分割掩码。ROI Segnet学习在 bounding box 的情况下分割部分对象。
3、Similarity-based Aggregation
通过与第一帧中的视觉信息进行比较,采用基于相似性的评分函数对这些目标部分进行细化。
通过零件跟踪和ROI分割,可以粗略识别物体位置和分割mask。但是,由于跟踪结果不正确,可能会出现误差。为了减少噪声分割部分,通过计算被跟踪部分与初始对象mask之间的特征距离去聚合部件。
![2019-01-23 10-09-24屏幕截图](/home/superior/图片/2019-01-23 10-09-24屏幕截图.png)
算法:
首先,基于零件的跟踪器,其目标是通过整个视频来定位对象部分。 其次,构建ROI SegNet,用于预测对象部分的分割结果。第三,通过计算特征空间中的相似度得分,引入部分聚合方法来生成最终的分割结果。
1、基于部件的跟踪器
1.1、如何确定部件
在对象周围随机生成具有各种大小和位置的部分提议,并删除与对象掩码具有低重叠率的部分(计算提议与目标之间的IOU,去除阈值小于0.3的部分)。
为了确保每个部分尽可能多的包含对象的像素,进一步测量得分:$ S_P = \frac{bbox\cap gtbox}{bbox} $其中bbox是提议的边界框,gtbox是第一帧中的已知对象框。 的部分提议被用作非最大抑制(NMS)步骤的候选。这样的目标是将数千个bounding box 减少到只有50〜300个代表性部分。还将每个部件的边界框转换为紧密的目标掩码,从而减少背景噪声,从而实现更有效的跟踪和分割。
1.2、部件追踪
对在frame $ I_t \mathcal{P}t={P_t1,P_t2,…,P_t^i} P_t^i I{t+1} \mathcal{T} \mathcal{S} _t \mathcal{S} t = \mathcal{T}(P_t^i,I{t+1})$
使用SiaFC方法作为我们的基线跟踪器$ \mathcal{T} \mathcal{S} _t $。由于其完全卷积体系结构,可以计算一次正向传递中多个部分的映射得分。 一旦获得分数,我们选择最大响应边界框作为跟踪结果。
2、ROI SegNet
基于上述部件的跟踪结果,现在对bounding box 内的部分对象进行分割。通过裁剪来自部件的图像补丁作为网络输入来利用ROI数据层,其中这些补丁通过调整大小来对齐。类似于语义分割,目标是最小二进制加权交叉熵损失(前景or背景):
其中 表示CNN参数, 表示在像素 处输入部分 的网络预测, 是用于平衡权重的前景 -背景像素 - 数量比.
网络结构
利用ResNet-101架构作为分割的基础网络并将其转换为完全卷积层。为了增强特征表示,将最后三个卷积模块上采样特征映射并将它们连接在一起。串联的特征之后是二进制预测的卷积层。
ROI SegNet架构:
![2019-01-23 10-09-57屏幕截图](/home/superior/图片/2019-01-23 10-09-57屏幕截图.png)
3、基于相似性的部分聚合
首先计算
帧部件组
的每一部分与初始部件组
在特征空间上的相似度。然后通过下面公式选出与当前部件
相似度最高的
,
公式如下:
其中
表示每个部件的特征向量。从ROI SegNet中的最后一个图层中提取,并在部件mask上进行平均池化(average pooling)。
总的来说,评分函数由三部分组成:
其中
是通过公式1选出的初始部件组,*表示元素间的的乘法运算。
是当前
帧的部件分割们的简单平均数:
其中
是当前
帧的部件部件组集合,
是第
个部件的分割得分。
是公式1中计算出的部件组集合的特征空间相似度。
考虑到初始组件分割可能较差,这里增加一个置信分数
,它是经过ROI SegNet后的
与初始mask的重合比例。
其中
是IoU度量,
表示ROI SegNet,
表示第一帧的目标mask.
实验
主要对比三个参数作为实验的基准:mean region similarity (J mean), contour accuracy (F mean) and temporal stability (T mean)
通过实验证明:论文的方法在时间和准确性上是目前最优的方法。
![2019-01-23 10-09-43屏幕截图](/home/superior/图片/2019-01-23 10-09-43屏幕截图.png)