论文笔记：Learning Video Object Segmentation from Unlabeled Videos

这篇CVPR2020的论文，和MAST的任务相仿，都是从training阶段就放弃annotation的使用，变成了彻头彻尾的无监督学习，为VOS任务提供了一个新的高效学习范式。不同的是这篇文章不仅可以用来做O-VOS(one shot半监督给定第一帧mask)，还可以用来做Z-VOS(zero shot无监督无第一帧mask)。

在这里插入图片描述
文章采用multiple granularities的方式，来学习到多粒度的视频帧的特征表示，四种granularity如下：

（1）frame granularity：通过显著性检测或者CAM maps来挖掘帧内的信息，鉴别前景部分和背景部分；

（2）short-term granularity：通过施加局部表示的consistency约束，用来比较连续几帧间的视觉pattern；

（3）long-range granularity：施加远距离frame之间的语义联系，使得帧之间的特征表示对occlusion，外观的变化以及deformation；

（4）whole-video granularity：通过融合多帧的信息，让视频表示去学习到global和conpact的内容，并且和其他视频序列的representation加以区别。

感觉(2)和(3)两点与MAST的memory的目的有相似之处，但处理的方法完全不同；而(1)的存在使得本篇文章可以处理Z-VOS的任务。整个流程图如下图所示：

在这里插入图片描述
本篇文章的思路感觉很棒，但就是非常的繁琐，这篇笔记不放太多的理论，简单的概括一下结构。

在这里插入图片描述
short-term granularity部分像是cyclegan里面的循环一致性，将原图clip出一个关键区域p，预测接下来两帧中该区域匹配度较高的位置，然后再从t+2帧反向预测回来。这样可以使的特征提取器 $\phi$ 学习到一些局部的特征。

在这里插入图片描述
long-range granularity将远距离帧的关联问题，看作是一个对偶帧之间语义的matching问题。选取两个distant的帧，通过特征提取得到两者的embedding，计算两个embedding的affinity similarity，随后通过一个微型的网络将这个affinity similarity映射到六度空间，用以回归一个几何变换（translation, rotation and scale），最后也是通过类似于consistency的操作得到long-term的loss。

frame granularity将显著性检测的前景部分当作mask，将frame通过一个1x1卷积得到一个前景prediction，然后计算两者的交叉熵损失，就是frame粒度的损失，用来对前景知识有一个更好的理解。

whole-video granularity没细看。。。

这里主要呈现以下O-VOS的实验结果：

在这里插入图片描述
结果感觉还是很震撼的，在无监督/弱监督O-VOS方面都有了非常高的涨点。

论文笔记：Learning Video Object Segmentation from Unlabeled Videos

猜你喜欢