2019论文阅读4:Fast and Accurate Online Video Object Segmentation via Tracking Parts

Fast and Accurate Online Video Object Segmentation via Tracking Parts

CVPR 2018

提出的背景:

很多基于CNN的方法都是在第一帧中对对象开始大量的微调,这对在线视频分割来说是耗时的。为此本文的方法是接收图像后立即分割,从而实现在线视频目标分割问题。

难点:

相机运动、对象变形、遮挡和混乱背景。特别地,对于在线应用来说,当方法被要求不访问未来帧时也能有好的鲁棒性和快速性,会出现显著的问题。

现有方法可分为无监督学习和半监督学习:

无监督学习:在无先验信息时对运动对象进行分割,如initial object masks。缺点是不能分割多对象。也有一些要求知道整个视频的信息才能进行分割,不能应用于在线应用。无监督学习的缺点:由于不同实例和动态背景之间的运动混淆,这些无监督的方法无法分割特定的对象。

半监督学习的缺点:通常严重依赖于通过第一帧、数据增强、在线模型适应和光流联合训练对模型进行微调。

解决:为了减轻计算负载的问题,通过在第一帧中通过整个视频传播对象掩码,开发了几种方法。在没有充分利用第一帧信息的情况下,这些方法在长时间传播后会出现错误积累,因而其性能不如其他方法。该算法采用了基于部分的跟踪,并始终通过基于相似性的部分聚集策略来关注第一帧。

目标:

在没有访问未来帧的情况下快速的分割。

贡献:

1、提出了一种适用于在线任务的快速、准确的视频对象分割方法。

2、开发了基于部分的跟踪和基于相似性的聚合方法,在不增加计算负载的情况下,有效地利用第一帧中包含的信息。

3、设计了一个ROI Segnet,它以零件的边界框作为输入,并为每个零件输出分割蒙版。

主要思想:

数据集是DAVIS benchmark dataset(基准数据集)

1、part-based tracking

基于部分的跟踪方法处理如变形、遮挡、背景杂乱等问题;

提出的方法:1、第一帧产生目标提议,基于初始掩码重叠分数选择代表性部分;2、每个部分应用跟踪器,为后续帧提供时间一致的兴趣区域(ROI)。

2、ROI Segmentation

基于被跟踪的零件边界框,构造感兴趣区域分割网络,生成区域掩模;

只要每个部分在下一帧中被定位,构建一个基于CNN的ROI Segnet来预测属于目标对象的分割掩码。ROI Segnet学习在 bounding box 的情况下分割部分对象。

3、Similarity-based Aggregation

通过与第一帧中的视觉信息进行比较,采用基于相似性的评分函数对这些目标部分进行细化。

通过零件跟踪和ROI分割,可以粗略识别物体位置和分割mask。但是,由于跟踪结果不正确,可能会出现误差。为了减少噪声分割部分,通过计算被跟踪部分与初始对象mask之间的特征距离去聚合部件。

![2019-01-23 10-09-24屏幕截图](/home/superior/图片/2019-01-23 10-09-24屏幕截图.png)

算法:

首先,基于零件的跟踪器,其目标是通过整个视频来定位对象部分。 其次,构建ROI SegNet,用于预测对象部分的分割结果。第三,通过计算特征空间中的相似度得分,引入部分聚合方法来生成最终的分割结果。

1、基于部件的跟踪器

1.1、如何确定部件

在对象周围随机生成具有各种大小和位置的部分提议,并删除与对象掩码具有低重叠率的部分(计算提议与目标之间的IOU,去除阈值小于0.3的部分)。

为了确保每个部分尽可能多的包含对象的像素,进一步测量得分:$ S_P = \frac{bbox\cap gtbox}{bbox} $其中bbox是提议的边界框,gtbox是第一帧中的已知对象框。 S p > 0.7 S_p > 0.7 的部分提议被用作非最大抑制(NMS)步骤的候选。这样的目标是将数千个bounding box 减少到只有50〜300个代表性部分。还将每个部件的边界框转换为紧密的目标掩码,从而减少背景噪声,从而实现更有效的跟踪和分割。

1.2、部件追踪

对在frame $ I_t 中满足上述条件的部件组 \mathcal{P}t={P_t1,P_t2,…,P_t^i} 。我们希望建立一个打分映射来度量部件 P_t^i 出现在下一帧 I{t+1} 中的位置可能性,用函数 \mathcal{T} ( ) 表示该映射(函数),用 \mathcal{S} _t , 表示可能性,公式表达如下: \mathcal{S} t = \mathcal{T}(P_t^i,I{t+1})$

使用SiaFC方法作为我们的基线跟踪器$ \mathcal{T} 来计算得分映射 \mathcal{S} _t $。由于其完全卷积体系结构,可以计算一次正向传递中多个部分的映射得分。 一旦获得分数,我们选择最大响应边界框作为跟踪结果。

2、ROI SegNet

基于上述部件的跟踪结果,现在对bounding box 内的部分对象进行分割。通过裁剪来自部件的图像补丁作为网络输入来利用ROI数据层,其中这些补丁通过调整大小来对齐。类似于语义分割,目标是最小二进制加权交叉熵损失(前景or背景): L ( P ) = ( 1 w ) i , j f g l o g E ( y i j = 1 ; θ ) w i , j b g l o g E ( y i j = 0 ; θ ) \mathcal{L}(P)=-(1-w)\sum_{i,j\in{fg}}log \mathbb{E}(y_{ij}=1;\theta)-w\sum_{i,j\in{bg}}log\mathbb{E}(y_{ij}=0;\theta)

其中 θ \theta 表示CNN参数, y i j y_{ij} 表示在像素 ( i , j ) (i,j) 处输入部分 P P 的网络预测, w w 是用于平衡权重的前景 -背景像素 - 数量比.

网络结构

利用ResNet-101架构作为分割的基础网络并将其转换为完全卷积层。为了增强特征表示,将最后三个卷积模块上采样特征映射并将它们连接在一起。串联的特征之后是二进制预测的卷积层。

ROI SegNet架构:

![2019-01-23 10-09-57屏幕截图](/home/superior/图片/2019-01-23 10-09-57屏幕截图.png)

3、基于相似性的部分聚合

首先计算 t t 帧部件组 P t \mathcal{P}_t 的每一部分与初始部件组 P 0 \mathcal{P}_0 在特征空间上的相似度。然后通过下面公式选出与当前部件 P t m P_t^m 相似度最高的 P 0 n P_0^n
公式如下:
1 n = a r g m i n i N f ( P t n ) f ( P 0 n ) 2 2 公式1 :n=argmin_{i\in N}||f(P_t^n)-f(P_0^n)||_2^2
其中 f f 表示每个部件的特征向量。从ROI SegNet中的最后一个图层中提取,并在部件mask上进行平均池化(average pooling)。

总的来说,评分函数由三部分组成:
S s e g ( P t ) = S a v e ( P t ) S s i m ( P t , P 0 n ) S c o n ( P 0 n ) \mathcal{S}_{seg}(\mathcal{P}_t)=\mathcal{S}_{ave}(\mathcal{P}_t)*\mathcal{S}_{sim}(\mathcal{P}_t,\mathcal{P}_0^n)*\mathcal{S}_{con}(\mathcal{P}_0^n)
其中 P 0 n \mathcal{P}_0^n 是通过公式1选出的初始部件组,*表示元素间的的乘法运算。

S a v e \mathcal{S}_{ave} 是当前 t t 帧的部件分割们的简单平均数:
S a v e ( P t ) = i P t S i P t \mathcal{S}_{ave}(\mathcal{P}_t)=\sum_{i\in\mathcal{P_t}} \frac{\mathcal{S}^i}{|\mathcal{P_t}|}
其中 P t \mathcal{P}_t 是当前 t t 帧的部件部件组集合, S i \mathcal{S}^i 是第 i i 个部件的分割得分。

S s i m \mathcal{S}_{sim} 是公式1中计算出的部件组集合的特征空间相似度。

考虑到初始组件分割可能较差,这里增加一个置信分数 S c o n \mathcal{S}_{con} ,它是经过ROI SegNet后的 P 0 n \mathcal{P}_0^n 与初始mask的重合比例。
S c o n ( P 0 n ) = J ( G ( P 0 n ) , g t ) \mathcal{S}_{con}(\mathcal{P}_0^n)=J(G(\mathcal{\mathcal{P}_0^n}),gt)
其中 J J 是IoU度量, G G 表示ROI SegNet, g t gt 表示第一帧的目标mask.

实验

主要对比三个参数作为实验的基准:mean region similarity (J mean), contour accuracy (F mean) and temporal stability (T mean)

通过实验证明:论文的方法在时间和准确性上是目前最优的方法。

![2019-01-23 10-09-43屏幕截图](/home/superior/图片/2019-01-23 10-09-43屏幕截图.png)

发布了5 篇原创文章 · 获赞 7 · 访问量 1237

猜你喜欢

转载自blog.csdn.net/weixin_42640840/article/details/86605792