用于视频对象分割（vos）的时空CNN——STCNN（解读）（原论文）

STCNN模型

本文提出的方法由两个分支组成，即时间相关分支和空间分割分支。具体地，从未标记的视频数据以对抗方式预训练的时间相关分支被设计为捕获视频序列的动态外观和运动线索以指导对象分割。空间分割分支是一个完全卷积网络，它侧重于基于所学习的外观和运动线索准确地分割对象。为了获得准确的分割结果，设计了从粗到精的过程，以便在多尺度特征图上顺序应用设计的注意模块，并将它们连接起来以产生最终预测。以这种方式，强制执行空间分割分支以逐渐集中于对象区域。这两个分支以端到端的方式联合微调视频分段序列。

视频对象分割

半监督视频对象分割旨在基于预先提供的前景区域来分割视频对象，并将它们传播到剩余的帧。
无监督视频对象分割使用自下而上的策略来对空间 - 时间相关进行分组而没有任何先验信息。

STCNN

时间相关分支学习时空判别特征以捕获视频序列的动态外观和运动线索，而不是使用光流。同时，空间分割分支是完全卷积网络，其被设计为利用来自时间相关分支的时间约束来分割对象。

网络构架

（1）时间相关分支：

如STCNN模型图所示。文中构建的基于主干ResNet-101网络的时间相关分支，其中输入的信道数为3δ。也就是说，我们连接先前的δ帧并将它们馈入时间相关分支以进行预测。之后，使用三个反卷层，内核大小为3×3。为了保留每个分辨率中的时空信息，我们使用三个跳过连接来连接低层特征。内核大小为1×1的卷积层用于压缩特征以提高效率。值得注意的是，每个卷积或反卷积层之后是批量标准化层和用于非线性的ReLU层。

（2）空间分割分支

通过将最后两个残差块（即res4和res5）中的卷积层替换为步长为 1 的空洞卷积层，构建基于ResNet-101网络的空间分割分支，旨在保留分割精度的高分辨率。然后，使用PPM模块通过基于不同区域的上下文聚合来利用全局上下文信息，然后使用设计的三个注意模块（如下图）来优化预测。也就是说，按顺序在多尺度特征图上应用注意模块，以帮助网络聚焦于对象区域并忽略背景区域。之后，连接多尺度特征图，然后是3×3卷积层以产生最终预测。

图中S_t表示当前阶段的分段遮罩。首先使用元素添加来利用高级上下文，并连接时间相关特征以集成时间约束。之后，我们使用来自先前粗尺度特征图的预测掩模来引导网络的注意力，即，使用逐元素乘法来掩蔽当前阶段中的特征图。设St为当前阶段的预测掩模。我们在元素方面将St乘以特征映射，并将其添加到用于预测的连接特征中。以这种方式，增强了对象区域周围的特征，这使得网络逐渐集中于对象区域以获得准确的结果。

预训练

使用对抗性方式通过从未标记的视频数据预测未来帧来训练时间相干性分支。具体地，将时间相干分支设置为生成器G，并构造鉴别器D以从G和真实视频帧中识别所生成的视频帧。在这里，使用在ILSVRC CLSLOC数据集上预先训练的Inception-v3网络。用随机初始化的2类FC层替换最后一个完全连接（FC）层作为鉴别器D。鉴别器D和发生器G被迭代地优化以使得发生器G捕获视频序列中的辨别性时空特征。