motivation:
之前使用flownet的方法有诸多弊端。
1.在检测框架中加入光流网络极大地增加了检测器模型的参数,无法用在移动端。
2.光流原本是描述两张图片间像素点的位移的,直接将其用在high-level的feature map上会引入人为的干扰。特别的,high-level的feature map上的像素点移动一格,对应的图片上可能存在10-20个像素点的位移,光流估计大位移容易出错。
因此本文舍弃了光流网络,提出了一个叫做Progressive Sparse Local Attention(PSLA)的新模型用来替代光流网络,在高层语义特征之间做特征传播。
具体来说,\(F_t,F_{t+\epsilon}\)分别为帧\(I_t,I_{t+1}\)的特征,PSLA首先计算两特征之间的correspondence weights,然后用这个计算出的权重与特征做卷积来进行特征对齐。这个机制和attention很像但有不同之处,后面会介绍。
和之前的视频目标检测方法类似,本文也是仅在稀疏的关键帧上做特征提取,并用PSLA得到非关键帧的特征。PSLA用在两个地方:
1.将关键帧的特征传播到非关键帧;此外,一个轻量的质量网络被用在非关键帧上,将非关键帧的low-level feature用来同传播来的high-level feature做补充。文章称之为Dense Feature Transforming(DFT).
2.在关键帧之间进行特征传播;此外,一个更新网络被用来递归地更新关键帧上的特征。文章称之为Recursive Feature Updating(RFU).
所提出的框架概览:
图1.以两张关键帧\(I^{K1},I^{k2}\)和一张非关键帧\(I^i\)为例来简单说明文章的算法框架。关键帧首先送到\(N_f\)来得到高层特征\(F_h^k\),非关键帧送入一个轻量的网络\(N_l\)来提取低层特征\(F_l^i\)。
时序特征\(F_t)用RFU来增强高层特征,其中\(F_t\)是由更新网络结合高层特征来递归更新得到的。与此同时,用DFT在关键帧和非关键帧之间传播特征。
PSLA: