Progressive Sparse Local Attention for Video object detection

motivation:

之前使用flownet的方法有诸多弊端。

1.在检测框架中加入光流网络极大地增加了检测器模型的参数,无法用在移动端。

2.光流原本是描述两张图片间像素点的位移的,直接将其用在high-level的feature map上会引入人为的干扰。特别的,high-level的feature map上的像素点移动一格,对应的图片上可能存在10-20个像素点的位移,光流估计大位移容易出错。

  因此本文舍弃了光流网络,提出了一个叫做Progressive Sparse Local Attention(PSLA)的新模型用来替代光流网络,在高层语义特征之间做特征传播。

具体来说,\(F_t,F_{t+\epsilon}\)分别为帧\(I_t,I_{t+1}\)的特征,PSLA首先计算两特征之间的correspondence weights,然后用这个计算出的权重与特征做卷积来进行特征对齐。这个机制和attention很像但有不同之处,后面会介绍。

和之前的视频目标检测方法类似,本文也是仅在稀疏的关键帧上做特征提取,并用PSLA得到非关键帧的特征。PSLA用在两个地方:

1.将关键帧的特征传播到非关键帧;此外,一个轻量的质量网络被用在非关键帧上,将非关键帧的low-level feature用来同传播来的high-level feature做补充。文章称之为Dense Feature Transforming(DFT).

2.在关键帧之间进行特征传播;此外,一个更新网络被用来递归地更新关键帧上的特征。文章称之为Recursive Feature Updating(RFU).

所提出的框架概览

图1.以两张关键帧\(I^{K1},I^{k2}\)和一张非关键帧\(I^i\)为例来简单说明文章的算法框架。关键帧首先送到\(N_f\)来得到高层特征\(F_h^k\),非关键帧送入一个轻量的网络\(N_l\)来提取低层特征\(F_l^i\)。

时序特征\(F_t)用RFU来增强高层特征,其中\(F_t\)是由更新网络结合高层特征来递归更新得到的。与此同时,用DFT在关键帧和非关键帧之间传播特征。

PSLA

猜你喜欢

转载自www.cnblogs.com/hf19950918/p/10704500.html