BubbleNets: Learning to Select the Guidance Frame in Video Object Segmentation by Deep Sorting Frames论文笔记

在视频分割中，尤其是半监督学习之中，我们往往要有一个初始帧供沃恩注释，一般而言，这个初始帧都是选择的第一帧，但是密歇根大学的研究人员发现，使用最佳的帧并不是第一帧，使用更好的帧可以显著提升性能，所以他们提出了bubblenets这一个方法，该代码现在在github上已经开源。

https://github.com/griffbr/BubbleNets 实验视频位于https://youtu.be/0kNmm8SBnnU

在之前的很多研究中，广泛使用davis数据集，youtube的vos视频，而且野有了许许多多的标准，这些论文大多关注的是多目标的分割，由此来满足用户的需要，而且这些研究大多使用的是神经网络（cnn或者fcn）的办法

本文使用的视频分割方法是基于osvos的，（osvos是入门视频分割的一篇经典论文），因为osvos不需要顺序考虑帧的效果，所以选择了它

论文特别关注了al方法和error reduction这两个热点，al方法在error reduction中有了很多应用，但是对于cost的衡量方法不一，有基于决策树的模型，也有研究crowd source类视频的模型，本篇论文想要对所有的半监督学习方法进行cost衡量，而且要找出最好的那一帧。密歇根大学提出的方法与冒泡排序有着相似性，相邻迭代地比较连续两帧。

但是这与冒泡排序有很大的不同，冒泡排序仍然有这种“顺序”的考量，而在本方法之中，我们采用了利用一些参考帧的方法，这些参考帧是随机选择的，如此比较两者的相对关系，能够成功使用“随机性”，从而选出我们要的初始帧，最后判断是否提高效能的方法是使用了两个指标，一个是分割重合度，还有边缘精确度，两者相加衡量最后的效能。

然后作者进行了对比实验，分别对原先的bubblnets，不适用single-frame方法，不使用reference参考帧，使用其他的衡量函数，此时发现，只有我们现在的方法时间效能不差，但是精确度最高，但是通过对比也发现，如果初始帧选在中间那一帧，鲁棒性会更好，这是因为这一桢在计算距离时离其他点的期望距离应该时最小的。

Selecting the middle frame for annotation is the best per

forming simple selection strategy on all datasets and is easy

to implement in practice.

但是bnf 也就是第五种方法的鲁棒性最好，但是时间复杂度最高

bn0对于简单的分割在效率上时最好的，而且效果也是最好的，但是一旦涉及到很少帧数的标记，bn0就会出现一些问题，实验也发现，应该是帧数太少的缘故导致了这出现了一些问题，所以需要更多的标记帧。

最后，这篇文章总结了对于初始帧的选择，我们应该做更多考虑，不应该执着于选第一帧，用bn的方法确实能够大大提升性能

BubbleNets: Learning to Select the Guidance Frame in Video Object Segmentation by Deep Sorting Frames论文笔记

猜你喜欢