论文笔记——OSVOS：One-Shot Video Object Segmentation

第一次看视频目标分割（Video Object Segmentation， VOS）的论文，选择了这篇比较经典的论文。

论文链接：https://openaccess.thecvf.com/content_cvpr_2017/papers/Caelles_One-Shot_Video_Object_CVPR_2017_paper.pdf

VOS问题大多是半监督问题，即给定某视频第一帧的mask，对于第一帧中标注的instance，预测接下来所有帧中的mask。例如下图中，第一帧给定了一个人的mask标注（红色区域），其任务是预测接下来每一帧中，这个人的mask（绿色区域）。
在这里插入图片描述
该篇论文的主要贡献有以下三点：

（1）把一个在图像识别上预训练好的CNN模型，迁移到VOS任务中。首先是做预训练得到一个用于图像识别的模型，接着对该模型进行改造，并在人工分割的视频数据集上进行训练。最后在测试阶段，基于第一帧的标注mask，对模型进行微调。

（2）OSVOS独立地处理视频中每一帧，因为物体在帧之间的变化一般不会太大，这与主流的考虑时间连续性的方法不同。虽然那些考虑时间连续性的方法在连续帧上取得了不错的表现，但是对于遮挡或者剧烈的移动，会造成偏差，并且这个偏差会随着时间的推移而逐渐累积放大；同时，如果考虑motion estimation，就需要用到光流这类方法，这也是一个困难的问题。作者证明深度学习方法独立地处理每一帧，也可以达到很好的效果，所以OSVOS就可以避免时序上错误的累积，如一些遮挡等问题。

（3）OSVOS可实现速度和精度上的trade off，在给定第一帧的mask后，用户可以选择快速的模式和精确的模式，以进行fine-tune。每帧处理181ms可得71.5%的准确率，而每帧处理7.85s时可达79.5%的准确率。此外用户可以进行更多的标注来进一步提升准确率。

在这里插入图片描述
OSVOS的总揽图如上：

（1）在VGG模型上，基于ImageNet数据集，训练一个图像分类模型，该模型称作Base Network;

（2）删除掉Base Network最后的分类层，改造成FCN的模式，使得输出维度与输入一致，在保留空间信息的基础上，每一个点负责预测对应像素属于前景或是背景。将该网络在DAVIS2016数据集上进行训练，损失函数采用了二分类交叉熵损失，并考虑到正负样本的均衡性，其定义如下图（1）：
在这里插入图片描述
$\beta$ 是一个平衡正负样本权重的因子，该网络称为Parent Network。

（3）给定一个新的视频序列，以及该视频第一帧标注的分割信息，对Parent Network进行微调，对于fine-tune的时间，作者做了trade off：微调时间短，那么整个流程速度就快，用户等待时间短，但分割效果可能相对较差；微调时间稍长，分割精确度相对较高，但等待时间较长。

值得注意的是，前两步训练属于offline training，而第三步训练属于online training。

看到这里，个人有几点想法不知对错：

（1）半监督只是在训练的第三个阶段用到，指针对某一个特定的视频，只取其第一帧进行微调，预测出后续帧序列的分割标注。而对于前面训练base和parent时，采用的是完全监督的方法；

（2）每次对第一帧做fine-tune，模型只对当前的视频有效。如果有多个视频序列需要预测分割，需要在parent network上面进行多次微调，每次对应一个视频序列；

（3）我们只是对第一帧的标注进行了fine-tune，那么如果instance的外观产生了巨大的变化呢？OSVOS这种只基于一帧标注的微调会不会过拟合，从而分割不出外观变化较大的物体？所以OSVOS个人认为是基于一种假设，即不同帧之间，物体的大小外观变化不大的情况下，效果才会较好。

在这里插入图片描述
作者还加了一个用于预测边缘的网络，因为分类网络只是识别出图像中有没有这个物体，而对于其出现的位置不加研究，但本文的task要求精准分割，因此加入这个分支以提取边缘，以辅助前景的分割。（这块有点云里雾里，不知和前面三个步骤的关系如何）。

部分实验结果：
在这里插入图片描述
两个衡量指标：

Region Similarity：衡量的是预测掩码M与真实掩码G之间的IOU：
在这里插入图片描述
Contour Accuracy：将掩膜看成一系列闭合轮廓的集合，并计算基于轮廓的 F 度量，即准确率和召回率的函数。即轮廓精确度是对基于轮廓的准确率和召回率的 F 度量：

上图为消融实验：-BS是没有获取边界，-PN是没有在父网络上预训练，-OS是没有学习第一帧。

参考：https://blog.csdn.net/qq_20657717/article/details/81868182

论文笔记——OSVOS：One-Shot Video Object Segmentation

猜你喜欢