Fast and Accurate Online Video Object Segmentation via Tracking Parts

CVPR 2018

提出的背景：

很多基于CNN的方法都是在第一帧中对对象开始大量的微调，这对在线视频分割来说是耗时的。为此本文的方法是接收图像后立即分割，从而实现在线视频目标分割问题。

难点：

相机运动、对象变形、遮挡和混乱背景。特别地，对于在线应用来说，当方法被要求不访问未来帧时也能有好的鲁棒性和快速性，会出现显著的问题。

现有方法可分为无监督学习和半监督学习：

无监督学习：在无先验信息时对运动对象进行分割，如initial object masks。缺点是不能分割多对象。也有一些要求知道整个视频的信息才能进行分割，不能应用于在线应用。无监督学习的缺点：由于不同实例和动态背景之间的运动混淆，这些无监督的方法无法分割特定的对象。

半监督学习的缺点：通常严重依赖于通过第一帧、数据增强、在线模型适应和光流联合训练对模型进行微调。

解决：为了减轻计算负载的问题，通过在第一帧中通过整个视频传播对象掩码，开发了几种方法。在没有充分利用第一帧信息的情况下，这些方法在长时间传播后会出现错误积累，因而其性能不如其他方法。该算法采用了基于部分的跟踪，并始终通过基于相似性的部分聚集策略来关注第一帧。

目标：

在没有访问未来帧的情况下快速的分割。

贡献：

1、提出了一种适用于在线任务的快速、准确的视频对象分割方法。

2、开发了基于部分的跟踪和基于相似性的聚合方法，在不增加计算负载的情况下，有效地利用第一帧中包含的信息。

3、设计了一个ROI Segnet，它以零件的边界框作为输入，并为每个零件输出分割蒙版。

主要思想：

数据集是DAVIS benchmark dataset（基准数据集）

1、part-based tracking

基于部分的跟踪方法处理如变形、遮挡、背景杂乱等问题；

提出的方法：1、第一帧产生目标提议，基于初始掩码重叠分数选择代表性部分；2、每个部分应用跟踪器，为后续帧提供时间一致的兴趣区域（ROI）。

2、ROI Segmentation

基于被跟踪的零件边界框，构造感兴趣区域分割网络，生成区域掩模；

只要每个部分在下一帧中被定位，构建一个基于CNN的ROI Segnet来预测属于目标对象的分割掩码。ROI Segnet学习在 bounding box 的情况下分割部分对象。

3、Similarity-based Aggregation

通过与第一帧中的视觉信息进行比较，采用基于相似性的评分函数对这些目标部分进行细化。

通过零件跟踪和ROI分割，可以粗略识别物体位置和分割mask。但是，由于跟踪结果不正确，可能会出现误差。为了减少噪声分割部分，通过计算被跟踪部分与初始对象mask之间的特征距离去聚合部件。

![2019-01-23 10-09-24屏幕截图](/home/superior/图片/2019-01-23 10-09-24屏幕截图.png)

算法：

首先，基于零件的跟踪器，其目标是通过整个视频来定位对象部分。其次，构建ROI SegNet，用于预测对象部分的分割结果。第三，通过计算特征空间中的相似度得分，引入部分聚合方法来生成最终的分割结果。

1、基于部件的跟踪器

1.1、如何确定部件

在对象周围随机生成具有各种大小和位置的部分提议，并删除与对象掩码具有低重叠率的部分（计算提议与目标之间的IOU，去除阈值小于0.3的部分）。

为了确保每个部分尽可能多的包含对象的像素，进一步测量得分：$ S_P = \frac{bbox\cap gtbox}{bbox} $其中bbox是提议的边界框，gtbox是第一帧中的已知对象框。 $S_p > 0.7$ 的部分提议被用作非最大抑制（NMS）步骤的候选。这样的目标是将数千个bounding box 减少到只有50〜300个代表性部分。还将每个部件的边界框转换为紧密的目标掩码，从而减少背景噪声，从而实现更有效的跟踪和分割。

1.2、部件追踪

对在frame $ I_t $中满足上述条件的部件组$ \mathcal{P}t={P_t^1,P_t2,…,P_t^i} $。我们希望建立一个打分映射来度量部件$ P_t^i $出现在下一帧$ I{t+1} $中的位置可能性，用函数$ \mathcal{T} $表示该映射(函数)，用$ \mathcal{S} _t $表示可能性,公式表达如下：$ \mathcal{S} t = \mathcal{T}(P_t^i,I{t+1})$

使用SiaFC方法作为我们的基线跟踪器$ \mathcal{T} $来计算得分映射$ \mathcal{S} _t $。由于其完全卷积体系结构，可以计算一次正向传递中多个部分的映射得分。一旦获得分数，我们选择最大响应边界框作为跟踪结果。

2、ROI SegNet

基于上述部件的跟踪结果，现在对bounding box 内的部分对象进行分割。通过裁剪来自部件的图像补丁作为网络输入来利用ROI数据层，其中这些补丁通过调整大小来对齐。类似于语义分割，目标是最小二进制加权交叉熵损失（前景or背景）： $\mathcal{L}(P)=-(1-w)\sum_{i,j\in{fg}}log \mathbb{E}(y_{ij}=1;\theta)-w\sum_{i,j\in{bg}}log\mathbb{E}(y_{ij}=0;\theta)$

其中 $\theta$ 表示CNN参数， $y_{ij}$ 表示在像素 $(i,j)$ 处输入部分 $P$ 的网络预测， $w$ 是用于平衡权重的前景 -背景像素 - 数量比.

网络结构

利用ResNet-101架构作为分割的基础网络并将其转换为完全卷积层。为了增强特征表示，将最后三个卷积模块上采样特征映射并将它们连接在一起。串联的特征之后是二进制预测的卷积层。

ROI SegNet架构：

![2019-01-23 10-09-57屏幕截图](/home/superior/图片/2019-01-23 10-09-57屏幕截图.png)

3、基于相似性的部分聚合

首先计算 $t$ 帧部件组 $\mathcal{P}_t$ 的每一部分与初始部件组 $\mathcal{P}_0$ 在特征空间上的相似度。然后通过下面公式选出与当前部件 $P_t^m$ 相似度最高的 $P_0^n$ ，
公式如下：
$公式1 ：n=argmin_{i\in N}||f(P_t^n)-f(P_0^n)||_2^2$
其中 $f$ 表示每个部件的特征向量。从ROI SegNet中的最后一个图层中提取，并在部件mask上进行平均池化(average pooling)。

总的来说，评分函数由三部分组成：
$\mathcal{S}_{seg}(\mathcal{P}_t)=\mathcal{S}_{ave}(\mathcal{P}_t)*\mathcal{S}_{sim}(\mathcal{P}_t,\mathcal{P}_0^n)*\mathcal{S}_{con}(\mathcal{P}_0^n)$
其中 $\mathcal{P}_0^n$ 是通过公式1选出的初始部件组，*表示元素间的的乘法运算。

$\mathcal{S}_{ave}$ 是当前 $t$ 帧的部件分割们的简单平均数:
$\mathcal{S}_{ave}(\mathcal{P}_t)=\sum_{i\in\mathcal{P_t}} \frac{\mathcal{S}^i}{|\mathcal{P_t}|}$
其中 $\mathcal{P}_t$ 是当前 $t$ 帧的部件部件组集合， $\mathcal{S}^i$ 是第 $i$ 个部件的分割得分。

$\mathcal{S}_{sim}$ 是公式1中计算出的部件组集合的特征空间相似度。

考虑到初始组件分割可能较差，这里增加一个置信分数 $\mathcal{S}_{con}$ ,它是经过ROI SegNet后的 $\mathcal{P}_0^n$ 与初始mask的重合比例。
$\mathcal{S}_{con}(\mathcal{P}_0^n)=J(G(\mathcal{\mathcal{P}_0^n}),gt)$
其中 $J$ 是IoU度量， $G$ 表示ROI SegNet， $gt$ 表示第一帧的目标mask.

实验

主要对比三个参数作为实验的基准：mean region similarity (J mean), contour accuracy (F mean) and temporal stability (T mean)

通过实验证明：论文的方法在时间和准确性上是目前最优的方法。

![2019-01-23 10-09-43屏幕截图](/home/superior/图片/2019-01-23 10-09-43屏幕截图.png)

释然强

发布了5 篇原创文章 · 获赞 7 · 访问量 1237

私信关注

2019论文阅读4:Fast and Accurate Online Video Object Segmentation via Tracking Parts