【论文笔记】视频分类系列 Recognize Actions by Disentangling Components of Dynamics

版权声明:本文为博主原创文章,转载请注明。 https://blog.csdn.net/elaine_bao/article/details/80808747

Paper:http://openaccess.thecvf.com/content_cvpr_2018/papers/Zhao_Recognize_Actions_by_CVPR_2018_paper.pdf
Anthor: Yue Zhao, Yuanjun Xiong, and Dahua Lin (SenseTime, CUHK, Amazon Rekognition)

这是商汤在2018 CVPR上第二篇关于从RGB生成光流相关的工作了。第一篇出门左转看我的另一篇博客:【论文笔记】视频分类系列 Optical Flow Guided Feature: A Fast and Robust Motion Representation for Video (OFF)

0. 简述

action recognition的现有方法常常将appearance和motion的建模分开进行,这时候受到光流计算的影响速度会很慢。

在本文中我们将直接从视频帧中获取dynamics的信息,而不需要计算光流。具体来说,学到的representation包括3个部分,分别表示 static appearance, apparent motion,appearance changes。我们引入了3D pooling, cost volume processing和warped feature differences分别用于提取上述3部分的特征。这3个模块在整个网络中构成了3个分支,他们共享底层特征并且可以end-to-end地进行学习。
这里写图片描述

1. 方法

1.1 static appearance branch

这个branch主要是用来提取整个场景的静态表观特征的。它的结构主要包括2D conv,2D pooling和temporal pooling。
这里写图片描述

temporal pooling layer用在这里是为了使特征更加鲁邦,因为一帧的特征可能受到运动模糊,相机抖动等的影响,通过temporal pooling把多帧的特征pool到一起则可以比较好地解决这一问题。
这边没有使用3D conv,因为这里主要是为了捕获在时间上stable的特征,所以只在spatial的维度做特征提取,另外3D conv的参数量也更大,学起来更难。

1.2 appearance motion branch

这个branch表示的是视频帧上特征点的空间位移。在别的工作中,appearance motion通常是通过密集光流场来表示的,但是光流的计算通常耗时很大。因此我们想出了一种替代的方案,即直接将motion representation表示成cost volume。

cost volume的计算如下图,在相邻帧的low-level feature map上计算cost volume。给定一对feature map F t F t + 1 ,我们可以构建一个4维的cost volume C t R H W ( 2 Δ H + 1 ) ( 2 Δ W + 1 ) ,也就是说feature map上的每一个点都和其领域 ( 2 Δ H + 1 ) ( 2 Δ W + 1 ) 范围的所有点计算一个相似度。具体地,cost volume上的每个点 C t ( i , j , δ i , δ j ) f t ( i , j ) f t + 1 ( i + δ i , j + δ j ) 的cosine similarity。cosine相似度在我的理解表示的是方向的相似度,cosine的值在0-1之间,1表示两个向量的方向完全一致,其他方向<1。
这里写图片描述
在得到cost volume后,再计算一个位移映射矩阵(displacement map) V t R H W 2 来捕获t到t+1时刻的运动,在这个矩阵上的每个位置(i,j)都会得到一个2维的向量 v i , j = ( v i , j y , v i , j x ) 表示当前位置的位移,计算方式如下:
这里写图片描述
其中系数 ρ 从cost volume计算得到:
这里写图片描述
其中 c i , j ( δ i , δ j ) = C t ( i , j , δ i , δ j ) 。系数 ρ 的计算可以通过在x和y方向上计算softmax得到。那么这样的话位移映射矩阵 V t 就可以通过2D conv进行计算了。
当我们得到 V t 后,将其作为输入,输入到后续的conv layers中得到higher-level representation。最终一个1024维的特征向量用于表示apparent motion information。

1.3 appearance change approach

不是视频中所有的运动都可以由apparent motion解释的。比如光照的变化,物体本身形状的变化等。这种变化在以往的工作中通常通过RGB-Diff来捕获,但是这样的话就分不开apparent motion和appearance change了,和我们的初衷相违背。因此我们采用别的思路。Warped difference。

给定相邻帧的feature map F t F t + 1 ,我们首先根据 V t F t 进行warp,即根据之前计算的apparent motion得到估计的后一时刻的feature map F t + 1 = W ( F t , V t ) ,warp是通过双线性差值进行的。然后计算warped feature map F t + 1 F t + 1 之间的差,即得到了warped difference。然后再将warped difference输入到后续的网络中得到1024维的特征向量。

2. 实验

实验部分见原文。

猜你喜欢

转载自blog.csdn.net/elaine_bao/article/details/80808747
今日推荐