【论文笔记】视频分类系列 Recognize Actions by Disentangling Components of Dynamics

Paper：http://openaccess.thecvf.com/content_cvpr_2018/papers/Zhao_Recognize_Actions_by_CVPR_2018_paper.pdf
Anthor: Yue Zhao, Yuanjun Xiong, and Dahua Lin (SenseTime, CUHK, Amazon Rekognition)

这是商汤在2018 CVPR上第二篇关于从RGB生成光流相关的工作了。第一篇出门左转看我的另一篇博客：【论文笔记】视频分类系列 Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video (OFF)

0. 简述

action recognition的现有方法常常将appearance和motion的建模分开进行，这时候受到光流计算的影响速度会很慢。

在本文中我们将直接从视频帧中获取dynamics的信息，而不需要计算光流。具体来说，学到的representation包括3个部分，分别表示 static appearance， apparent motion，appearance changes。我们引入了3D pooling， cost volume processing和warped feature differences分别用于提取上述3部分的特征。这3个模块在整个网络中构成了3个分支，他们共享底层特征并且可以end-to-end地进行学习。
这里写图片描述

1. 方法

1.1 static appearance branch

这个branch主要是用来提取整个场景的静态表观特征的。它的结构主要包括2D conv，2D pooling和temporal pooling。
这里写图片描述

temporal pooling layer用在这里是为了使特征更加鲁邦，因为一帧的特征可能受到运动模糊，相机抖动等的影响，通过temporal pooling把多帧的特征pool到一起则可以比较好地解决这一问题。
这边没有使用3D conv，因为这里主要是为了捕获在时间上stable的特征，所以只在spatial的维度做特征提取，另外3D conv的参数量也更大，学起来更难。

1.2 appearance motion branch

这个branch表示的是视频帧上特征点的空间位移。在别的工作中，appearance motion通常是通过密集光流场来表示的，但是光流的计算通常耗时很大。因此我们想出了一种替代的方案，即直接将motion representation表示成cost volume。

cost volume的计算如下图，在相邻帧的low-level feature map上计算cost volume。给定一对feature map $F_t$ 和 $F_{t+1}$ ，我们可以构建一个4维的cost volume $C_t \in \mathbb{R}^{H*W*(2\Delta H+1)*(2\Delta W+1)}$ ，也就是说feature map上的每一个点都和其领域 $(2\Delta H+1)*(2\Delta W+1)$ 范围的所有点计算一个相似度。具体地，cost volume上的每个点 $C_t(i,j,\delta i, \delta j)$ 是 $f_t(i,j)$ 和 $f_{t+1}(i+\delta i,j+\delta j)$ 的cosine similarity。cosine相似度在我的理解表示的是方向的相似度，cosine的值在0-1之间，1表示两个向量的方向完全一致，其他方向<1。
这里写图片描述
在得到cost volume后，再计算一个位移映射矩阵（displacement map） $V_t \in \mathbb{R}^{H*W*2}$ 来捕获t到t+1时刻的运动，在这个矩阵上的每个位置(i,j)都会得到一个2维的向量 $v_{i,j}=(v_{i,j}^y,v_{i,j}^x)$ 表示当前位置的位移，计算方式如下：
这里写图片描述
其中系数 $\rho$ 从cost volume计算得到：

其中 $c_{i,j}(\delta i,\delta j)=C_t(i,j,\delta i, \delta j)$ 。系数 $\rho$ 的计算可以通过在x和y方向上计算softmax得到。那么这样的话位移映射矩阵 $V_t$ 就可以通过2D conv进行计算了。
当我们得到 $V_t$ 后，将其作为输入，输入到后续的conv layers中得到higher-level representation。最终一个1024维的特征向量用于表示apparent motion information。

1.3 appearance change approach

不是视频中所有的运动都可以由apparent motion解释的。比如光照的变化，物体本身形状的变化等。这种变化在以往的工作中通常通过RGB-Diff来捕获，但是这样的话就分不开apparent motion和appearance change了，和我们的初衷相违背。因此我们采用别的思路。Warped difference。

给定相邻帧的feature map $F_t$ 和 $F_{t+1}$ ，我们首先根据 $V_t$ 对 $F_t$ 进行warp，即根据之前计算的apparent motion得到估计的后一时刻的feature map $F_{t+1}^\prime=W(F_t,V_t)$ ，warp是通过双线性差值进行的。然后计算warped feature map $F_{t+1}^\prime$ 和 $F_{t+1}$ 之间的差，即得到了warped difference。然后再将warped difference输入到后续的网络中得到1024维的特征向量。

2. 实验

实验部分见原文。