cvpr论文阅读之Deep Spatio-Temporal Random Fields for Efficient Video Segmentation(用于视频分割的深度时空随机场)

首先放出论文和源码的链接:论文作者github链接(具体代码貌似作者还没放出来)

摘要

    在这项工作中,本文引入了一种能够有效节省时间和内存的结构化预测方法,可以在两个空间内同时耦合神经元决策。本文通过利用深度高斯条件随机场(GCRFs)的最新进展,证明本文方法能够在密集连接的时空图上进行精确有效的前向传播。本文被称为VideoGCRF的方法是(a)有效的,(b)具有确定的全局最小值,(c)可以与当代深度网络一起进行端到端训练,以实现视频理解。本文在时域中实验多种连接模式,并在视频的语义和实例分割任务上对较高的基准结果展现出较好的实际改进效果。

引言

    本文工作的目标在于以一种允许信息跨帧流动的方式实时结合神经网络的决策,从而得到时间和空间都一致的决策结果。为了达到这个目标,本文提出了一种结构化预测方法,将输出空间的结构利用起来使得分类器的准确率更高。本文提出的方法叫做VideoGCRF,是将最近被提出来用于单帧图像的结构化预测方法深度高斯条件随机场(DGRF)扩展至视频分割的一种方法。该算法能够用于多种视频分割任务,包括语义分割,实例追踪和与Mask-RCNN分割的目标检测结合的实例分割等等。
    本文方法继承了DGRF方法中所有优秀的特性。本方法:

  1. 通过线性系统的解决方案而不是依靠于平均场近似来获得精确的分割结果;
  2. 实现了反向传播过程的准确计算,因此缓解了基于时间的反向传播算法(BPTT)对内存的需求;
  3. 使得成对项(二元项)可以使用非参数项,而不是局限于一种固定的形式;
  4. 促进密集和稀疏两种连接图的前向传播,同时促进两种图拓扑结构的混合。

相关工作

    结构化预测经常被语义分割算法用于获取单张图像的空间约束。这些方法可以很自然的迁移到视频分割上,只要对视频的每一帧图像进行单独预测就好了。然而,这种方式忽略了时间上下文,从而忽略了连续帧之间具有相似的趋势。为了解决这个缺点,很多使用多种类型的结构化预测策略来在预测中保证时间一致性的深度学习方法被相继提出。最开始尝试去捕捉时空上下文的方式是设计一个可以隐式学习连续图像帧之间的关系的深度学习框架。许多后续方法使用循环神经网络(RNNs)来捕捉图像帧时间的相互依赖性。其它方法利用最先进方法计算得到的光流来作为网络的附加输入。最后,有一个方法在概率图形模型上通过成对项(二元项)显性地捕获时间约束,但是它是作为后处理,即不与基础网络联合训练。
    在这项工作中,文章主要集中于三个问题,语义、实例视频分割和语义实例追踪。语义实例追踪涉及到的问题是,当我们给定视频中首帧图像的真值图,目标是预测视频中后续帧的实例分割结果。第一类解决此任务的方法首先将网络在ImageNet或COCO这种大数据集上进行图像分类的预训练,然后利用视频第一帧图像的真值标注结果进行微调,同时可选地利用各种数据增强方案来增加视频后续帧中的尺寸/姿势变化和遮挡/截断的稳健性。第二类方法为将这个问题看作一个warping(扭曲)问题,其目标是使用图像和光流作为附加输入来warping第一帧的分割。
   目前大量的方式尝试去利用时间信息改进用于视频分割的静态图像分割方法,Clockwork convnets以利用特征跨时间的持久性,并根据其语义稳定性以不同的更新速率安排一些层的处理。一些方法中采用了类似的特征流传播思想。 在[28]中,使用流量和空间变换器网络对分段进行扭曲。 与其使用光流,对后续帧分割的预测也可以在时间上逐帧平滑地获得结果。 最后,最新的技术改进了PSPnet,通过warping静态分割CNN的特征图来模拟视频分割网络。

VideoGCRF

个人感觉这篇的related work写的很有用。对于本文的创新点,个人总结:

  1. 将时间信息融入到GCRF中,形成一个结合时空信息的线性系统以获得精准的分割结果;
  2. 重写了共轭梯度下降算法公式,除去了冗余计算,缓解了共轭梯度下降算法的时空复杂度;
  3. 提出了一种新的结构,可广泛的应用于多种视频处理应用中,比如视频分割、实例分割、目标追踪等。

论文导读到此结束,感兴趣的同学可以去细看论文原文。

猜你喜欢

转载自blog.csdn.net/baidu_33122327/article/details/85125153
今日推荐