TEA: Temporal Excitation and Aggregation for Action Recognition阅读笔记

一、简介

考虑时间建模在视频中行为识别的重要性,包括运动激发模块(ME)和一个多时间聚合模型(MTA),将他们嵌入一个标准ResNet块中,重新生成一个时间激发和聚合块,ME和MTA分别作用在短程运动和长程聚集上。ME模块利用从时空特征中计算的特征等级时间差异去激活特征的动作敏感通道。MTA模块将局部卷积变形为一组子卷积,形成一个层次化剩余结构。

创新点:

  1. 使用ME模块来代替传统的提取手工光流后输入2D基于卷积网络的双流框架来进行动作识别,该模块不需要将时空特征分流训练,而是将运动建模直接整个整合进时空特征中学习。
  2. 使用MTA代替传统的方法处理长程时间聚合,虽也使用(2+1)D的卷积,但是使用一组子卷积代替其中的1D时间卷积。

二、对比

当前存在的典型的基于视频的行为识别,一个是基于双流结构的,这个结构包含一个从每一帧中学习静态特征的空间2维CNN和一个以光流形式为动作信息建模的二维CNN。双流分开训练,然后取两个流的均值作为预测结果。但是这些方法都需要对光流进行额外的计算或者存储的消耗。更者,不同帧和俩个模型之间的交互有限制,经常发生在最后层。
还有一种方法是基于3维CNNs和(2+1)维变量。这方面第一个工作是C3D,在相邻帧上使用三维卷积将时空特征以统一的方式建模。还有利用2维CNNs从而提出的I3D,将二维卷积膨胀为三维卷积。有时候为了降低三维卷积的计算,会把三维卷积分解为一个二维的空间卷积和一个一维的时间卷积或者二维和三维混合使用。但是大量的局部卷积操作后,从远帧中的有用的特征会被削弱并且无法很好的捕捉。
本方法放弃光流提取,通过计算时间差异学习了类似于特征等级的动作表示。时空特征的学习和运动编码可以结合,并且用这些特征来发现并且增强他们的运动敏感成分。我们的方法也会利用运动特征来重新校准特征来增强运动模式。我们提出的多时间聚合模型简单有效,不需要额外运算符。

三、方法

在这里插入图片描述
使用TSN提出的疏松时间采样策略对变长视频进行采样,首先,将视频分为T个片段,然后在每个片段中随机选取一个帧组成一个T帧的输入序列。使用基于二维CNN的ResNet叠加多个TEA块堆来时空建模,TEA包括一个激活动作模式的ME模型和一个建立长程时间关系的MTA模型,最后使用一个简单的时间平均池化来对所有帧的预测结果进行平均。
在这里插入图片描述

  1. ME模块
    将运动模型从原始的像素级别扩大到一个大范围的特征级别,从而运动建模和时空特征学习能够纳入在一个统一的框架中。

  2. 对比SENet
    1)SENet设计用于基于图像的任务,当他应用于时空特征的时候,会不考虑时间信息,对视频的每一帧进行独立计算。
    2)SENet是一种自门控机制,得到的模型权重被用来增强特征X的信息通道,我们的模块旨在增强特征的运动敏感成分。
    3)SENet会抑制所有的无用通道,但是我们的模型会通过一个剩余连接来保留静态的背景信息。

  3. MTA模型
    受Res2Net的时空特征以及相应的局部卷积层被列入一个子集的启发。本模型中,子集被认为是一个层次化残差结构,一系列子卷积依次的运用在特征上,然后相应的扩大时空维度的等效感受野。

  4. 与ResNet块的集成
    ME模块集成到瓶颈层后(第一个1x1的卷积层)后,MTA模块替换原有的3x3卷积层,通过对TEA块的堆积,构建了行为识别网络。

四、实验

在这里插入图片描述
不同的baseline对应的测试结果:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_41214679/article/details/107975761