Marcella Astrid, Muhammad Zaigham Zaheer, Seung-Ik Lee; Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops, 2021, pp. 207-214

Code：GitHub - aseuteurideu/STEAL: Official implementation of "Synthetic Temporal Anomaly Guided End-to-End Video Anomaly Detection" (ICCV Workshops 2021: RSL-CV).

文章主要贡献：

由于异常实例的可用性有限，视频异常检测通常被视为一类分类(OCC)问题。解决这一问题的一种流行方法是利用仅在正常数据上训练的自动编码器(AE)。在测试时，AE将更好重建正常输入，而重建异常较差。然而，几项研究表明，即使只有正常数据的训练，AEs通常也可以较好重构异常，这会降低其异常检测性能。正常数据和异常数据之间的重建损失可能不足以成功识别异常。为了缓解这种情况，我们提出了一种仅使用正常数据生成伪异常的时间伪异常合成器。然后训练AE以最大化伪异常的重建损失，同时最小化正常数据的重建损失。通过这种方式，对AE进行编码，为正常和异常帧生成可区分的重建。并在三个具有挑战性的视频异常数据集（Ped2、Avenue、ShanghaiTech）上的大量实验和分析证明了我们的方法在改进基本AEs方面的有效性，从而实现对现有几种最先进模型的优势。

Methods

最近，OCC领域的一个新概念是利用正常训练数据生成的伪异常。Zaheer等人[39]从正常数据中融合两幅随机图像来产生外观异常，并使用它们来训练图像分类器。然而，这项工作需要重构器的新旧状态和训练的两阶段方案。此外，该方法仅限于外观，不考虑任何时间信息的异常检测。

[39] Muhammad Zaigham Zaheer, Jin-ha Lee, Marcella Astrid,and Seung-Ik Lee. Old is gold: Redefining the adversarially learned one-class classifier training paradigm. In Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition, pages 14183–14193, 2020.

我们的工作提出了一个简单而高效的时间伪异常合成器，以端到端的方式来辅助AE训练。这有助于限制在测试时重建异常帧的能力。我们的方法的灵感来源于直觉，即检测快速或突然变化的运动非常重要，并且与检测异常密切相关。我们假设大多数异常事件可以通过所描述的运动来表征。

为了从正常数据中模拟异常运动，我们任意跳过几帧来生成伪异常序列，如图1所示。然后进行整体训练，使正常数据的重建损失最小化，同时使合成异常数据的重建损失最大化。注意，与现有的基于运动跟踪的异常检测方法[3,32,43,24]不同，我们的方法没有提取任何精心挑选的运动信息。

Architecture

我们的整体架构如图2所示。我们训练一个传统的AE作为我们的基线，它以一组正常的帧作为输入，并产生其重建作为输出。为了补充基线训练，我们提出了一个伪异常合成器来生成假异常示例。然后这些例子被用于概率p的训练。

Autoencoder

我们设置AE模型以X为输入，输入尺寸为T × C × H × W，其中T、C、H、W分别为输入序列的帧数、通道数、帧高、帧宽。

其中和分别是我们模型的编码器和解码器

在训练过程中，给网络一个视频帧序列X为:

$X_P$ 是使用我们提出的伪异常合成器生成的帧序列， $X_N$ 是来自正常训练数据的帧序列，p是定义所使用的伪异常示例的概率。

Temporal Pseudo Anomaly Synthesizer

我们从长度为 $K_i$ 帧的训练视频中提取帧序列 $X_N$ ，从 $V_i$ 中随机选取帧索引n，然后连续取固定数量的T帧，如下所示:

通过在式(3)中引入跳跃帧参数 s 来合成伪异常 $X_P$ :

跳过帧参数s控制我们跳过的帧数，以生成时间伪异常示例

Training

正常帧 $X_N$ 的损失：

时间伪异常合成器产生的 $X_P$

注意式(6)中的负号，引入负号是为了增加伪异常实例的重建损失。（？）

训练的整体损失L的形式：

Anomaly Score

我们在帧水平上预测异常分数。此外，我们利用重建的峰值信噪比(PSNR)计算这些分数。

其中R为重建结果中的像素总数，t为帧索引，为的最大值。

对测试视频Vi中所有帧进行最小-最大归一化，将PSNR值归一化到[0,1]范围内，如下所示:

与Vi中的其他帧相比，较高的Qt表示较低的重建损失，反之亦然。因此，我们计算出最终的异常评分：

Experiments

Datasets

Avenue：Avenue Dataset

ShanghaiTech：Shanghaitech Vision and Intelligent Perception(SVIP) LAB

UCSD Ped2：UCSD Anomaly Detection Dataset

Evaluation criteria.

遵循广泛流行的框架水平区域下的ROC曲线(AUC)指标，AUC值越高，结果越准确。

Parameters and implementation details.

我们采用Gong等人最近提出的生成架构[7]作为我们的基线，我们去掉了the memory network，只利用了自动编码器部分。进一步，我们添加Tanh输出层，使输出范围为[−1,1]。，取大小为16 × 1 × 256 × 256的输入序列X (Eq.(1))，生成相同大小的重建序列。

[7] Dong Gong, Lingqiao Liu, Vuong Le, Budhaditya Saha,Moussa Reda Mansour, Svetha Venkatesh, and Anton van den Hengel. Memorizing normality to detect anomaly:Memory-augmented deep autoencoder for unsupervised anomaly detection. In Proceedings of the IEEE InternationalConference on Computer Vision, pages 1705–1714, 2019.

所有16帧都用于计算训练过程中的重建损失，在测试时，和[7]一样，16帧中只考虑9帧进行异常评分计算。

式(4)中的跳帧参数s设为{2,3,4,5}，即每次生成伪异常序列时，s可随机选取为2,3,4,5。

式(2)的伪异常概率p设为0.01。

Quantitative Results

Qualitative Results

重建误差热图显示在最后两列中。这些热图是通过计算每个像素之间的平方误差重建和输入帧，然后最小最大归一化产生的。

Conclusion

我们提出利用仅使用正常数据生成的伪异常，来辅助用于视频异常检测的自动编码器(AE)的训练。除了传统的AEs训练(网络只尝试最小化输入上的重构误差)，我们进一步鼓励网络最大化伪异常上的这种损失。我们在三个具有挑战性的视频异常数据集上广泛分析了我们的方法在补充AEs以实现对现有几种最先进模型的优势方面的有效性。

【视频异常检测-论文阅读】Synthetic Temporal Anomaly Guided End-to-End Video Anomaly Detection