[视频异常检测-论文阅读] Attention-based residual autoencoder for video anomaly detection

Le, VT., Kim, YG. Attention-based residual autoencoder for video anomaly detection. Appl Intell (2022). https://doi.org/10.1007/s10489-022-03613-1

Paper：Attention-based residual autoencoder for video anomaly detection | SpringerLink

Code： GitHub - vt-le/astnet: This is an official implementation for "Attention-based Residual Autoencoder for Video Anomaly Detection".

异常事件在现实场景中非常罕见。因此，很难收集和标记涵盖所有类型异常的训练数据。为了解决这个问题，我们提出了一种用于检测视频中异常事件的无监督学习方法。

2D CNN已用于各种视频异常检测任务，但它不能很好地表示时间特征。为了处理这个问题，一些方法将2D CNN和时间递归网络（如卷积LSTM）结合起来。这种组合旨在跨帧传播时间信息。然而，模型的层次越多，模型就越复杂。另一种尝试从视频中捕获时空信息的方法是3D CNN，通过它可以学习时空特征，尽管训练网络需要付出大量努力。一些最新的方法采用了双流神经网络，该网络由空间流和时间流组成。空间流利用外观特征，而流流捕获运动信息，然而光流的计算相当昂贵。

我们提出了一种使用未来帧预测方法的视频异常检测网络。网络的输入是视频中的帧序列，网络尝试预测未来帧[20]。给定几个连续帧 $I=\left \{ I_1, I_2, ..., I_t\right \}$ ，预测帧为 $\hat{I}_{t+1}$ ，预测帧的真值帧为 $I_{t+1}$ 。然后，可以使用预测帧 $\hat{I}_{t+1}$ 和真值 $I_{t+1}$ 之间的差来计算异常得分。

文章主要贡献点：

我们提出了一种用于视频异常检测的基于残差注意力的自动编码器，它以统一的方式编码空间和时间信息
时间移位用于建模的时间信息，因为它提供了高性能和低计算成本
通过引入通道注意力来利用解码器内的级联通道依赖性，从而更有效地预测未来帧。

Method

接下来，详细介绍本文视频异常检测框架。

结构总览如图1，总体是一个 encoder-decoder 的结构。

Encoder：从给定的 t 帧序列中，可以使用深度和广度卷积神经网络（即WiderResnet[34]）提取高级特征。为了利用视频帧的空间和时间信息，从深度卷积神经网络获得的最后一个特征映射然后通过两个分支，如图1所示。在时间分支中，时间移位应用于多个输入帧上的时间特征建模，而输入帧的提取特征被连接以保持空间分支中的空间信息。然后，两个分支的输出使用按元素求和进行组合，并馈送到解码器中，以预测相应的未来帧。

Decoder： 将编码器的输出用作解码器的输入。组合特征通过解码器恢复预测帧的细节和空间分辨率。解码器的每一层都是一个块序列，包括Deconvolution+ BN+ ReLU 。为了利用特征的通道关系，在每个反卷积块之后应用通道注意力。此外，通道注意力的输出特征与深度卷积神经网络提取的具有相同空间分辨率的相应低层特征相连接。下一步将使用组合特征。然后，对其进行反卷积，以将特征上采样回输入帧分辨率。