读书笔记21：MiCT: Mixed 3D/2D Convolutional Tube for Human Action Recognition（CVPR2018）

http://openaccess.thecvf.com/content_cvpr_2018/papers/Zhou_MiCT_Mixed_3D2D_CVPR_2018_paper.pdf

本文考虑到在识别人体动作的时候，3D CNN的水平不及2D CNN在识别静态图片时的水平，认为这是由于3D CNN消耗的计算资源和存储资源过大导致不能很好的训练，因此在本文中提出了一个2D和3D CNN结合的模型进行动作识别。

摘要：首先介绍背景，即目前有人探索使用3D CNN进行动作识别。接着就指出当前方法的不足，就是说3D CNN在处理视频的时候，达到的水准并不及CNN在处理2D静态图片时达到的水准。接着进行了简要的分析分析原因以便引出自己的模型。原因的分析是3D卷积所需要的spatio-temporal fusion带来的训练复杂度以及所需的存储消耗限制了3D CNN的表现。接着引出本文的模型，将2D和3D CNN混合得到的mixed convolutional tube（MiCT），这个模型将2D3D CNN结合起来，以便生成更深的且更加informative的feature map，并同时减少每一轮spatio-temporal fusion的训练复杂度。这种模块堆叠在一起还能形成新的端到端的深度网络MiCT-Net，用来探索人体动作中的spatio-temporal信息。最后作者介绍了一下实验结果，在一些数据集上取得了state-of-the-art的结果。

技术部分，本文提出了两种混合2D和3D卷积的方式，concatenating connections和cross-domain residual connections。首先，下图是使用了2D3D concatenated connection的模型的示意图：

用数学语言来描述的话，在t时刻的feature map表示为，那么将可以表述为

其中是从t时刻到时刻的sliced tensor，上式不是最终版本，M其实只是spatio-temporal feature map的linear fused操作，最终版本是另外提出了一个函数，这个，而这里的H其实就是2D卷积，也就是说这个数学描述描述的就是上图所示的过程，先进行3D卷积，接着对feature map进行2D卷积。这个过程可以理解为：3D卷积聚合了时空两个维度的信息，之后如果像是3D CNN那样继续叠加3D卷积层的话，会极大增加计算复杂度，因此退而求其次，使用2D卷积继续提升feature map的abstract level，同时又不会增加太大的计算负担。

cross-domain residual connection的模型示意图如下所示：

这里的cross-domain residual指的是添加的residual不是普通意义上的直接将输入加到卷积后的结果上，而是将输入先用2D卷积处理一下，再添加到3D卷积的输出上，称之为cross-domain residual，数学描述如下

这里o指的就是3D卷积的输出结果，而H和之前一样指的是2D卷积，是输入tensor在t0时刻的slice，并且，这个2D卷积不是在所有的帧上都进行，而是经过采样的某些帧上进行。作者指出，引入这种residual的原因是考虑到视频信息中，相邻的几帧经常是差不多的，造成了冗余信息，而模型中2D卷积只在采样的某几帧进行，抓取了稳定而且更加抽象的feature，3Dconvolution就只需要在这些经过2D卷积处理的，冗余大大减少的数据上进行卷积了。

最终作者还将这两种connection合起来形成一个MiCT模型，如下图所示

这个模型前面用了residual的，后面又加了一层2D卷积，像concatenate connection的。

进行实验的时候，作者用四个这种MiCT模块搭建了深度网络，网络用端到端的方式训练，整个网络就只有4层3D卷积，大大减少了训练的复杂度。具体来讲整个网络如下图所示

具体每一层的参数如下表

这里面2D网络用的是别人提出来的inception block，如下图所示

采取不同的卷积，然后将结果合并在一起。模型中的2D卷积层可以使用在大的image dataset上训练好的参数，作为一个很好的初始化，这也增加了模型的能力。

本文的实验部分做的并不是很复杂，但是也算丰富，首先是对比了MiCT网络和基础的3D CNN的表现，然后是和其他state-of-the-art的方法的对比，这个对比进行了两项，一个是直接的对比，另一个是和一些two-stream的模型对比（MiCT也设置成2stream的），最后，文章对模型进行了一下可视化，指出模型能够适应不同速度的action，具有不错的能力。

总结一下本文的模型，我认为本文的模型主要的贡献是cross-domain residual connection的这个操作，通过sample一些frames进行2D卷积，结合3D卷积，大大减少了模型的复杂度，并且使得很多冗余数据不需要再去学习。

读书笔记21：MiCT: Mixed 3D/2D Convolutional Tube for Human Action Recognition（CVPR2018）

猜你喜欢