[视频异常检测-论文阅读] Attention-based residual autoencoder for video anomaly detection

 Le, VT., Kim, YG. Attention-based residual autoencoder for video anomaly detection. Appl Intell (2022). https://doi.org/10.1007/s10489-022-03613-1

Paper:Attention-based residual autoencoder for video anomaly detection | SpringerLink

Code: GitHub - vt-le/astnet: This is an official implementation for "Attention-based Residual Autoencoder for Video Anomaly Detection".

异常事件在现实场景中非常罕见。因此,很难收集和标记涵盖所有类型异常的训练数据。为了解决这个问题,我们提出了一种用于检测视频中异常事件的无监督学习方法。

2D CNN已用于各种视频异常检测任务,但它不能很好地表示时间特征。为了处理这个问题,一些方法将2D CNN和时间递归网络(如卷积LSTM)结合起来。这种组合旨在跨帧传播时间信息。然而,模型的层次越多,模型就越复杂。另一种尝试从视频中捕获时空信息的方法是3D CNN,通过它可以学习时空特征,尽管训练网络需要付出大量努力。一些最新的方法采用了双流神经网络,该网络由空间流和时间流组成。空间流利用外观特征,而流流捕获运动信息,然而光流的计算相当昂贵。

我们提出了一种使用未来帧预测方法的视频异常检测网络。网络的输入是视频中的帧序列,网络尝试预测未来帧[20]。给定几个连续帧I=\left \{ I_1, I_2, ..., I_t\right \},预测帧为\hat{I}_{t+1},预测帧的真值帧为I_{t+1}。然后,可以使用预测帧\hat{I}_{t+1}和真值I_{t+1}之间的差来计算异常得分。

文章主要贡献点:

  •  我们提出了一种用于视频异常检测的基于残差注意力的自动编码器,它以统一的方式编码空间和时间信息
  • 时间移位用于建模的时间信息,因为它提供了高性能和低计算成本
  • 通过引入通道注意力来利用解码器内的级联通道依赖性,从而更有效地预测未来帧。

 Method

接下来,详细介绍本文视频异常检测框架。

结构总览如图1,总体是一个 encoder-decoder 的结构

Encoder:从给定的 t 帧序列中,可以使用深度和广度卷积神经网络(即WiderResnet[34])提取高级特征。为了利用视频帧的空间和时间信息,从深度卷积神经网络获得的最后一个特征映射然后通过两个分支,如图1所示。在时间分支中,时间移位应用于多个输入帧上的时间特征建模,而输入帧的提取特征被连接以保持空间分支中的空间信息。然后,两个分支的输出使用按元素求和进行组合,并馈送到解码器中,以预测相应的未来帧。 

Decoder: 将编码器的输出用作解码器的输入。组合特征通过解码器恢复预测帧的细节和空间分辨率。解码器的每一层都是一个块序列,包括Deconvolution+ BN+ ReLU 。为了利用特征的通道关系,在每个反卷积块之后应用通道注意力。此外,通道注意力的输出特征与深度卷积神经网络提取的具有相同空间分辨率的相应低层特征相连接。下一步将使用组合特征。然后,对其进行反卷积,以将特征上采样回输入帧分辨率。

Temporal branch 

时间移位过程[19]已用于视频理解领域。在目前的工作中,我们希望利用时间移位技术在视频异常检测任务中利用时间信息。

如图2所示,通道的一部分移动到下一帧,同时保留其余部分。然后,将当前帧的特征与前一帧的特征相结合。

给定输入特征 ,输出为:

其中,shift 表示移位操作。在图2中,输入特征由四个帧组成。当前帧的部分信道被移动到下一帧。注意,帧 t2 的通道的一部分被帧t1 的通道的部分替换。

 Spatial branch

在空间分支中,从深度卷积神经网络获得的提取特征跨帧聚合。为了降低计算复杂度,我们在组合特征上应用1×1卷积来减少通道数量,因为聚合特征包含大量通道。

时间和空间分支的特征组合如下:

Residual channel attention block

在每个反卷积层之后,我们对特征映射应用通道注意力,在我们的通道注意力模块中,选择了两个卷积层,如[37],而不是两个完全连接的层。

  其中s(F)表示通道注意力,⊗ 表示按元素的乘积。

采用的就是SEnet的通道注意力。结构如红框中(不过文章用的不是FC):

Residual channel attention block

研究发现,Residual channel attention blockchannel attention 能提供更好的结果,尤其是在使用大型数据集(如Avenue或ShanghaiTech数据集)进行训练时。

由图中可知,通道注意力位于 两个3x3 的卷积(第二个卷积后面的激活函数 就替换为 通道注意力 )之后,进行skip connection 之间。

输入特征图the residual channel attention block 的结果是:

X 是 前面两个卷积的结果 ,作为通道注意力的输入

 

 Objective function

 RGB空间中所有像素的相似性可以通过强度约束来确保,该强度约束比较预测帧和真值帧之间的每个像素值

 为了处理采用 L2 距离时可能出现的模糊,添加了梯度约束以获得更清晰的视频帧。损失函数计算沿两个空间维度的绝对梯度之间的差异。

 为了衡量结构相似性(SSIM),使用多尺度结构相似性(MS-SSIM)

Anomaly detection

为了检测异常,我们使用异常分数S(t),它用于测量地面真实帧 I 和预测帧 \hat{I} 之间的差异.由于峰值信噪比(PSNR)广泛用于评估图像质量,预测帧的质量计算如下:

 N表示帧中的行数和列数(像素数),[max_{\hat{I}}] 是\hat{I} 的最大值, PSNR的较高值表明该框架具有较高的质量。换句话说,真值帧和预测帧之间的差异很小。

 将每个测试视频中所有帧的 PSNR 归一化为范围[0,1] ,并且通过使用以下公式计算每帧的异常评分 S (t) :

min(PSNR)和 max(PSNR)分别表示给定视频序列中的最小和最大PSNR值。预测帧的异常得分指示帧在给定阈值下是正常还是异常.

Experimental evaluation

在以下三个数据集上进行实验:

  •  UCSD Dataset.
  • CUHK Avenue dataset.
  • ShanghaiTech Campus dataset.

 评价指标:frame-level area under the curve (AUC)

1. 网络中几个模块使用的对比:

 ROC的曲线图

2.backbone 的结果对比(AUC值和ROC的曲线图)

3.与SOTA的对比

 Visualization

1. Anomaly score

2. Network visualization

  • 左右两列 分别为 正常和异常帧
  • 第二行 为 时空特征图
  • 第三行 为 注意力结果
  • 最后 为 预测误差

猜你喜欢

转载自blog.csdn.net/qq_63019407/article/details/126310045