DFF(deep feature flow for video recognition)论文详读

abstract

deep feature flow是一个针对视频目标识别快速且准确的框架,只在稀疏的关键帧上运行卷积子网络,并通过flow field 把它们的特征图传播到其他帧。

introduce

因为图像内容的变化比视频内容的变化要慢很多,所以冗余且连续的数据可以被用于减少额外的计算。

基于CNN的方法有一个通用的结构——多数层都是卷积层。有大量的计算;中间的卷积特征图有着与输入图像同样大小的空间范围(通常是低分辨率的,如16×16或更小)。该方法保留了低级图像内容和中到高级语义信息的空间对应关系,就像光流(optical flow)一样,这些关系提供了通过空间warp在邻近帧之间cheaply传播特征的方法

DFF是在稀疏关键帧上运行图像识别网络,通过flow field在关键帧和其他帧之间传递深度特征图。因为流估计和特征传播比卷积计算要快很多,所以DFF的速度提升了很多,DFF整个都是被端到端的进行训练,图像识别和flow网络都为检测任务而被优化,所以在速度和检测准确率都有了大幅提升。

DFF是第一个联合训练flow和视频识别任务的深度学习框架,与单帧的方法相比,速度提升了10倍但准确率只有少量的损失

relate work

  1. 对网络加速: Fast R-CNN和Accelerating very deep convolutional networks for classification and detection把大型网络层分解为多个小型的layer以达到加速的目的。有些方法是对网络的权重进行量化以实现加速的目的。

  2. optical flow光流:optical flow最近开始利用深度学习和语义信息——FlowNet首先使用CNN直接估计运动并实现了较好的效果;有些方法是使用语义分割信息来帮助进行optical flow 估计。optical flow信息现已被使用来进行视频任务,如姿势估计等。

  3. 在视频检测任务中利用时间信息:TCNN从tubelet融合时间和上下文信息。dense 3D CRF提出长范围的语义时空正则化。STFCN提出为语义视频分割而设计的时空FCN。以上的方法虽然提升了识别准确率,但是增加了大量的计算量。DFF通过利用视频中的时间一致性减少了大量的计算。

  4. slow feature analysis:高级语义内容的变化比低级图像在视频中出现的要慢,因此深度特征在连续视频帧可以平滑的变化,这一点已被用于对视频特征学习进行正则化。

  5. clockwork convnets:它可以禁用视频帧中某些网络中的layer且可以复用之前的特征。关于速度,clockwork只保留某些帧中1/3或2/3的计算,而DFF在大部分帧中的大部分layer应用了这一点,所以速度更快。关于准确率,clockwork只是重新安排了现有网络的计算,没有进行微调和预训练,准确率有微量的下降,且clockwork只能用于FCN进行语义分割操作。

DFF

把一个正向反馈的深度卷积网络拆分成两个连续子网络,第一个子网络被称为feature network特征网络,是一个全卷积网络且输出大量中间特征图。第二个子网络被称为task network任务网络,有着处理task的特殊结构,可以在特征图上执行识别任务。

因为连续视频帧之间具有相似性,在编码高级语义内容的特征图中,相似性显现的更加强烈,所以利用相似性来减少计算。

特征网络只在稀疏关键帧上运行,非关键帧的特征图通过它之前的关键帧传播。卷积层上的特征编码语义内容,且对应图像中的空间位置。这种空间对应使得可以利用空间warp来廉价的传播特征图。

特征的warp通过双线性插值实现(计算起来速度很快,因为其中只有几项是非零的):

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VBODIf47-1609770211320)(C:\Users\13577\AppData\Roaming\Typora\typora-user-images\image-20210104213545655.png)]

其中 δ \delta δp = Mi→k(P),Mi→k是一个二维flow field,是一个为了传播而从双线性resize到相同空间分辨率的特征图,把当前帧i的位置p反向投射到关键帧k的位置p+ δ \delta δp,且Mi→k = F(Ik,Ii),F是类似FlowNet的flow估计方法。c是特征图上的一个channel,G(·)是双线性插值核,被分为两个一维核:

在这里插入图片描述

其中g(a, b)=max( 0 , 1 - |a - b|)。

空间warp因为flow估计的错误、目标被遮挡等原因而不够准确,使用scale field Si→k(与特征图有着相同的空间大小和通道维数)来缓解其准确率的波动,其中Si→k = S(Ik,Ii)。

最后特征的传播为

在这里插入图片描述

DFF的训练

flow函数最初是用来获取低级像素间的对应关系,速度快但是准确率不足以满足识别任务的需要,因为高级特征图的变化一般情况下比像素变化慢。

为了应对高级特征图的多种变化,使用CNN来估计flow field和scale field,从而使得全部的组成模块都可以端到端的进行训练。

  1. 使用随机梯度下降(SGD)进行训练,在每个小批量中,一组邻近帧(关键帧Ik,非关键帧Ii)被随机采样(0<= i - k <=9);

  2. 在前向传播中,在关键帧Ik使用特征网络进行处理得到特征fk

  3. 使用flow网络处理关键帧Ik、非关键帧Ii,通过估计得到flow field和scale field。当i>k时,fk被传到fi(关键帧的特征传播到非关键帧的特征中);

  4. 任务网络处理fi得到结果yi及其导致的损失,该损失的误差梯度被反向传播以更新全部组件。

    值得注意的是,当i=k时,只使用per-frame network进行训练。

在这里插入图片描述

flow网络的速度比特征网络要快很多,通过在最后一个卷积层上适当的添加多个channels实现在flow网络最后一层添加一个scale函数S作为一个滑动输出的目的,调整后的flow网络被微调为右图。

该方法因为只需要对稀疏帧进行标记,所以训练速度很快。per-frame 网络只能使用被标记的数据,DFF可以在帧Ii被标记的情况下使用所有的数据。

关于关键帧的划定——在固定长度的l个连续帧内必有一个关键帧。但是视频内容的变化要求提供一个可变的l来权衡速度和准确率,所以必须在图像内容发生剧烈变化时产生一个新的关键帧,具体方法留在以后研究,本文未讲明。

network architecture网络架构

  1. FLow Network:把标准的FlowNet的结构作为默认,并提出两个变形以减少复杂度——①FlowNet Half减少了FlowNet每层一半的卷积核使得复杂度减为原本的1/4;②FlowNet Inception使用Inception结构且减为原本的1/8。三种flow network都在Flying Chairs进行预训练,输出stride为4,输入的图像是half-size,flow field的分辨率为原始分率的1/8,因为特征网络的特征stride为16,所以通过双线性插值将flow field和scale field尺寸缩小一半以适应特征图的分辨率。
  2. Feature Network:把在ImageNet上预训练的ResNet-50和ResNet-100作为默认。特征的stride由32减为16来生成更加密集的特征图,conv5的第一个模块的stride改为1,在conv5的所有3×3卷积核上应用holing 算法(dilation=2)以保持视野。在conv5附加一个随机初始化的3×3卷积来把特征的channel减少为1024,并使用holing算法(dilation=6)。得到的1024维的特征图是后续步骤的中间特征图。
  3. Semantic Segmentation:使用随机初始化的1×1的卷积层处理中间特征图生成C+1分数图(C个类别+背景),然后使用softmax生成每个像素的概率,所以task网络只有一个可学习权重layer。
  4. Object Detection:使用R-FCN作为默认。两个部分全卷积网络为了生成候选区域的子任务和检测任务,分别在前512维和后512维的中间特征图上应用。①在生成后续区域的分支,使用RPN。使用9个anchor,两个1×1的滑动卷积生成18维的客观分数和36维的边框回归值,使用NMS在每个proposal生成300个候选区域,IoU的阈值设置为0.7 。②在检测任务分支,两个1×1的滑动卷积生成位置敏感分数图和边框回归图,它们的维度分别为(C+1)×K²和4K²(K是分类器/回归器的数量)。在得到的特征图上使用ROI池化分别得到每个区域的分类分数和边框回归值,最后,在IoU阈值为0.3的情况下,用NMS生成检测结果。

DFF存在的不足之处:

  1. 关键帧是通过每l帧选取一个关键帧的方法得到的,l是一个固定值。然而当视频内目标对象的appearance发生剧烈变化时,l的长度也应该随之变化。
  2. 因为非关键帧的特征不是经过CNN计算得到的,而是通过关键帧的特征warp后赋予的,所以非关键帧特征的representation不如CNN计算得到的特征,其检测效果也不如CNN得到的特征。

猜你喜欢

转载自blog.csdn.net/weixin_41963310/article/details/112209039
今日推荐