文章目录

1 引入
2 方法
3 实验
- 3.1 数据集和评估标准

1 引入

1.1 题目

2023：用于弱监督视频异常检测的正态导向多示例学习(Normality guided multiple instance learning for weakly supervised video anomaly detection )

1.2 摘要

弱监督视频异常检测 (wVAD) 的目的是基于视频级特征判断正常事件中的异常。已有工作通常使用基于排序损失的多示例学习。然而这些方法依赖于MIL分类器的预测，这是有噪声的，其将影响目标实例的选择，进而降低模型性能。为了克服这个问题，我们提出了正态导向多示例学习 (NG-MIL)，其将来自无噪声正常视频的多种正常模式编码，用于构建基于相似性的分类器。通过集成两个分类器的预测，NG-MIL可以微调异常得分，降低训练不稳定性。此外，引入了正态聚类和正态引导的三元组损失约束包内实例，以提高NG-MIL 的效果并增加分类器的可辨别性。

图1：(a) 已有MIL排序模型；(b) NG-MIL。本文通过正态导向微调模块 (Normality guided refinement module, NGRM) 对正常模式的全局特征编码，以改进初始预测

1.3 引用

@inproceedings{
    
    Park:2023:26652674,
author		=	{
    
    Seongheon Park and Hanjae Kim and Minsu Kim and Dahye Kim and Kwanghoon Sohn},
title		=	{
    
    Normality guided multiple instance learning for weeakly supervised video anomaly detection},
booktitle	=	{
    
    {
    
    WACV}},
pages		=	{
    
    2665--2674},
year		=	{
    
    2023}
}

2 方法

2.1 背景和动机

多示例排序框架广泛用于弱监督视频异常检测，原因是它可以仅使用视频级标签来判断异常片段。给定一个视频 $B = \{v_t\}_{t=1}^T$ ，其中 $T$ 是不交叠片段的数量。每个实例 $f_t\in\mathbb{R}^D$ 通过特征提取器 $E(\cdot)$ 计算，例如 $f_t=E(v_t)\in\mathbb{R}^D$ 。然后，异常视频被定义为正包 $B^a=\{f_t^a\}_{t=1}^T$ ，正常视频则定义为 $B^n=\{f_t^n\}_{t=1}^T$ 。他们的优化目标通常为—通过排序损失最大化正包和负包中top- $k$ 个实例的异常得分：
$\tag{1} L_{rank}=\left[ 1 - \frac{1}{k} \sum_{i=1}^k c(f_i^a) + \frac{1}{k} \sum_{j=1}^k c (f_j^n) \right]_+,$ 其中 $[\cdot]_+$ 是hinge函数， $c(f_i^a)$ 和 $c(f_j^n)$ 分布表示降序排列的第 $i$ 和第 $j$ 个异常得分。最小化排序损失可以提升异常实例的判断能力。然而，它依然只是使用在视频级标签下训练的异常分类器来选择top- $k$ 实例。这将使得异常视频中正常实例的异常分数高置信度，进而在学习过程中累积误差。

本文提出正态导向多示例学习 (NG-MIL)，其使用正常视频中不同正常模式编码的正态原型 (Normality prototypes) 来微调异常预测。通过将正态原型与实例之间的相似性作为附加分类分数，初始的噪声预测得以微调。接下来将在3.2介绍正态导向微调模块，3.3介绍学习目标，图2则展示了NG-MIL的总体框架。

图2：NG-MIL的总体框架，其包含一个编码器、NGRM，以及MIL分类器

2.2 正态导向微调模块

正态导向微调模块 (NGRM) 使用正态原型 $P=\{ p_m \}_{m=1}^M$ 来微调异常得分，其中每个正态通过一个原型 $p_m \in \mathbb{R}^{D/4}$ 表示。这包含了两个主要部分，正态更新和异常预测微调。

2.2.1 正态更新

该阶段的目的是捕捉正常视频正态形式的全局特征。为了更新 $p_m$ ，首先将 $f_t^n$ 投影到 $\hat{f}_t^n$ ，以保证与 $p_m$ 的维度一致性。然后计算 $\hat{f}_t^n$ 与 $P$ 中所有正态原型的余弦相似性：
$\tag{2} s_{t,m}^n=\frac{\hat{f}_t^np_m^\top}{\| \hat{f}_t^n\| \| p_m \|}, \quad m\in\{1,\dots,M\}.$ 这将获得一个大小为 $T\times M$ 的二维相似性图。每个投影实例都将用于更新其最近的正态原型。令 $U_m$ 表示投影实例索引的集合，其用于更新第 $m$ 个正态原型。投影实例特征均能够被分配到一个正态原型。正态原型的更新如下：
$\tag{3} p_m\leftarrow(1-\lambda)p_m+\lambda\frac{1}{|U_m|}\sum_{t\in U_m}\hat{f}_t^n,$ 其中 $\lambda$ 表示用于指数加权移动平均的动量。注意正态原型只有在被分配了投影实例特征时才会更新。

2.2.2 异常预测微调

已有方法利用得分最高的实例来区分异常片段，本文将其扩展为，使用正态原型来微调不可信的异常得分：

计算实例与正态原型的余弦相似度；
沿 $M$ 个正态原型方向使用softmax函数，并将其作为相似性得分的注意力权重：
$\tag{4} g(f_i,P)=\sum_{m=1}^M\frac{exp(s_{i,m}/\tau)}{\sum_{m=1}^Mexp(s_{i,m}/\tau)}s_{i,m}$ 其中 $\tau$ 是温度超4参数。进一步，ReLU用于确保 $g$ 的结果非负。注意正常和异常视频均应用这一规则，只是为了简便而省略了 $a$ 和 $n$ 。
异常得分 $a(f_i,P)$ 定义为：
$\tag{5} a(f_i,P)=1-g(f_i,P).$
通过集成两个分类器的预测得分，获取微调后的分数：
$\tag{6} r(f_i)=\frac{1}{2}(c(f_i)+a(f_i,P)).$

2.3 学习目标

我们利用三个损失来优化我们的算法：正态导向MIL排序损失 $L_{NG-MIL}$ 、用于NGRM的两个辅助损失，即分别正则化负包和正包内实例特征的 $L_{clst}$ 和 $L_{tri}$ 。

2.3.1 正态导向MIL排序损失

NG-MIL排序损失如下：
$L_{NG-MIL}=\left[ 1 - \frac{1}{k} \sum_{i=1}^k r(f_i^a) + \frac{1}{k} \sum_{j=1}^k r(f_j^n) \right]_+,$ 其中 $i$ 和 $j$ 表示得分 $r$ 的索引，其按照降序排列。与公式1中的MIL排序损失相比，NG-MIL损失允许选择一些高置信度的目标实例，这可以缓解弱标签下的训练不稳定。

2.3.2 正态聚类损失

正态聚类损失促使负包中的每个实例与其最近邻原型之间的聚类：
$\tag{8} L_{clst}=\frac{1}{T}\sum_{i=1}^T \min_{p_m \in P} \| p_m - \hat{f}_i^n \|_2^2.$ 该损失可以减少正态原型之间的类间方差，有助于增强NGRM中基于相似性的异常分类的可辨别性。

2.3.3 正态导向三元损失

为了从MIL分类器和基于相似性的分类器中到处准确的分类结果，我们希望异常实例特征与正负包中的正常实例特征相距甚远。然而，公式7仅仅将top- $k$ 个实例作为优化项，忽略了正包中的正常实例。由于异常视频中的大部分片段包含正常事件，这阻碍了分类器对正常实例周围的异常实例的检测。

对此，引入了正态导向三元损失，其通过一个大的间隔来惩罚正常和异常实例之间的差异：

采样伪异常集合 $\Omega_a=\{ \hat{f}_1^a,\dots, \hat{f}_k^a \}$ 和伪正常集合 $\Omega_n = \{ \hat{f}_{T - k + 1}^a, \dots, \hat{f}_T^a \}$ ，其分别包含了依据公式6微调且降序后得分的来自正包的top- $k$ 和bottom- $k$ 个实例样本；
计算三元损失：
$\tag{9} L_{tri}=\frac{1}{k}\sum_{i=1}^k\left[ \left\| \hat{f}_{T-i+1}^a - p_j \right\|_2^2 - \min_{\hat{f}^a\in \Omega_a} \left\| \hat{f}^a - p_j \right\|_2^2 + \gamma \right]_+,$ 其中 $\gamma$ 是一个预设间隔， $j$ 是伪正常集中每个样本最近原型的距离：
$\tag{10} j = \argmin_{m \in M} \left\| \hat{f}_{T-i+1}^a -p_m \right\|^2_2.$

该损失可以通过惩罚三元组 $(P,\Omega_n,\Omega_a)$ 来增强正包中正态原型的类内紧凑性和类间可分离性，这将显著增强NGRM微调的质量。

2.3.4 总损失

总损失定义为 $L_{NG-MIL}$ 、 $L_{clst}$ ，以及 $L_{tri}$ 的和。此外添加了时间平滑度 $L_{ts} = \sum_{i=1}^{T-1}(r(f_i) - r(f_{i+1}))^2$ 和稀疏约束 $L_s=\sum_{i=1}^T r(f_i)$ 。最终的损失为：
$\tag{11} L_{total}=L_{NG-MIL}+\lambda_tL_{clst}+\lambda_cL_{tri}+\lambda_r(L_{ts} + L_s).$

论文阅读 (86)：Normality Guided Multiple Instance Learning for Weakly Supervised Video Anomaly Detection