【无监督视频异常检测】2023-CVPR-使用预训练的深度骨架特征进行提示引导的零样本异常动作识别

2023-CVPR-Prompt-Guided Zero-Shot Anomaly Action Recognition using Pretrained Deep Skeleton Features

使用预训练的深度骨架特征进行提示引导的零样本异常动作识别

使用预训练的深度骨架特征进行提示引导的零样本异常动作识别

论文地址

摘要

本研究研究了无监督异常动作识别，即在没有异常样本的情况下以无监督方式识别视频级异常人类行为事件，同时解决了传统基于骨架的方法中的三个局限性：目标域相关的 DNN 训练、针对骨架错误的鲁棒性、以及缺乏正常样本。我们提出了一个统一的、用户提示引导的零样本学习框架，使用目标域无关的骨架特征提取器，该框架在大规模动作识别数据集上进行了预训练。特别是，在使用正常样本的训练阶段，该方法对正常动作的骨架特征分布进行建模，同时冻结 DNN 的权重，并在推理阶段使用该分布来估计异常分数。此外，为了提高针对骨架错误的鲁棒性，我们引入了受点云（point cloud）深度学习范式启发的 DNN 架构，该架构在关节之间稀疏地传播特征。此外，为了防止未观察到的正常动作被误识别为异常动作，我们将用户提示嵌入和公共空间中对齐的骨架特征之间的相似性得分纳入异常得分，从而间接补充正常动作。在两个公开可用的数据集上，我们进行了实验来测试所提出的方法相对于上述限制的有效性。

1. 引言

异常动作识别，即检测视频中的人是否行为异常的任务 [7、14、16、20、22、32、39、43]，成为避免事故和预防犯罪 [7、33] 的重要技术。之前的工作可以分为两种方法，即利用视频中的外观信息 [7、14、39、43] 或仅利用其人体骨骼 [16、20、22、32]。在深度神经网络（DNN）的帮助下，早期的方法通过分析视频的外观特征来识别异常行为。另一方面，后一种方法仅使用通过将多人姿势估计方法 [3、10、30]（简称为姿势检测器）应用于视频而提取的低信息骨架序列，因此对视频人物的外表和背景 [40] 的变化相对稳健。

此外，以前的方法识别每个帧 [16、22、39、43] 或每个视频片段 [7、14、20、32] 的异常动作。他们还遵循有监督的 [7、14、32] 或无监督的 [16、20、22、39、43] 方式，具体取决于是否给出注释。由于注释成本较低，所提出的方法利用基于骨架的方法，以无监督的方式识别视频级别的异常动作。

本研究使用两个假设；用户可以定义异常动作的类别（例如图 1 中的暴力），观察到的训练样本由正常动作组成。此外，未观察到的训练动作被称为分布外（OoD）（例如图 1 中的 “握手” 和 “推”）。当在训练阶段没有观察到足够多的正常样本时，OoD 动作包括未观察到的正常动作（例如，图 1 中仅 “握手”）。

图 1

图 1. 对每个视频的骨骼特征分布进行建模，用于将暴力动作样本识别为异常，而在训练阶段仅将行走样本视为正常样本。仅从正常样本中学习的决策边界（黑色虚线）由建议的提示引导异常分数向嵌入用户输入的提示暴力（红线）的方向移动。训练过程中未观察到的握手样本属于分布不均但正常的情况，由于缺少正常样本而在没有提示的情况下被错误地识别为异常。但是，通过添加此提示，可以正确地将握手样本识别为正常，同时将行走样本识别为正常。

本研究重点关注先前研究 [20、22] 中的局限性，以提高可扩展性，例如扩展到不同的应用程序并增强性能，如下所述。

目标领域相关的 DNN 训练。当应用程序初始化时，以前的方法需要时间来为每个场景使用昂贵的计算资源来训练 DNN，或者在训练和推理阶段之间发生域转移（例如分布随时间的变化）。因此，应用程序受到限制，并且存在使用限制。

缺乏正常样本。在现实场景中，无法获得各种正常动作来训练 DNN。在这种情况下，大多数动作都被视为异常，即正常但OoD动作被误认为是异常。因此，用户最好能够定义要识别的目标异常和 / 或正常动作，如图1所示。

针对骨架错误的鲁棒性。大多数传统的基于骨架的方法 [16、20、22、42] 都预设 DNN，如图神经网络（GNN），在关节之间密集地传播特征。因此，如果姿态检测中出现联合检测错误（误报（FP）和误报（FN）），或者由于环境噪声（例如光照波动）导致多人姿态跟踪失败，则异常识别精度会降低。

为了同时克服这些限制，本文提出了一种新颖的、提示引导的零样本（zero-shot）框架，用于使用带有人体骨骼序列输入的预训练深度特征提取器来识别异常动作。该方法不需要观察异常行为或其真实标签来训练 DNN。特别是，为了解决第一个训练限制，我们利用具有骨架特征表示的 DNN 在训练阶段对正常样本的分布进行建模，这些骨架特征表示已在相当大的动作识别数据集（例如 Kinetics-400 [4]）上进行了预训练。骨架特征提取器的权重在训练阶段被冻结，因此它们的特征相对独立于目标域。

针对第二个正常样本限制，我们利用用户提供的异常动作的文字提示来间接补充正常动作的信息，减少将正常动作识别为异常的误判。我们将从文本编码器提取的骨架特征和文本嵌入之间的相似性得分整合到异常得分中。通过实现骨架特征和文本嵌入之间的对比学习方案，可以在视觉和语言的背景下完成，这在近年来得到了积极的研究。

受点云深度学习范式的启发，我们引入了一种更简单的 DNN，它在关节之间稀疏地传播特征作为特征提取器，从而提高了针对上述第三个限制中的此类骨架错误的鲁棒性。该架构消除了对输入骨架的约束，例如输入关节大小和顺序，这些约束取决于数据集/域。它允许我们将冻结在不同域/数据集上的预训练特征提取器转移，而无需任何微调 / 超参数调整，并同时对正常样本的分布和域/数据集上的关节骨架文本嵌入空间进行建模。

总之，这项工作的主要贡献如下：（1）我们通过实验证明，可以通过使用大规模动作识别数据集预训练的骨架特征表示来消除使用正常样本的 DNN 训练。（2）我们表明，处理公共空间中的骨架特征和文本嵌入的零样本学习范式可以有效地对正常和异常动作的分布进行建模。它由全新的统一框架支持，该框架将用户引导的文本嵌入纳入异常分数的计算中。（3）我们通过实验证明，排列不变架构在关节之间稀疏地传播特征，可以作为骨架特征提取器，对正常样本和域上的关节骨架文本嵌入空间进行建模，并增强针对骨架错误的鲁棒性。

2. 相关工作

2.1. 视频异常检测

与第 2.2. 节中介绍的异常动作识别任务相比，视频异常检测任务可以在相对较短的时间（逐帧）间隔内识别异常动作。早期基于外观的方法使用手工制作的运动特征作为输入，例如像素变化的直方图 [2] 或光流 [1]。由于 DNN 的最新进展，3D 卷积神经网络 (CNN) 现在被用来以数据驱动的方式提取时空特征 [7,37,43]。另一方面，基于骨架的方法 [16、21、22] 专注于 DNN 架构，例如循环神经网络 [21、22] 或 GNN [16]，来对输入人体骨架序列的运动特征进行建模。我们的方法利用了基于骨架的方法的优点，这种方法更能抵抗训练导致的人的外观或背景的变化 [40]。

基于骨架的视频异常检测可以分为监督学习方法 [21] 和无监督学习方法 [16、22]。后一种方法 [16、22] 在可以定期观察正常行为的假设下识别异常行为，并且可以轻松收集此类数据。这些方法不需要手动标记训练数据集。在推理阶段比较观察到的和重建的人体骨骼序列使他们能够识别异常行为。

2.2. 异常动作识别

与视频异常检测任务相比，异常动作识别任务可以识别由相对较长时间间隔内的间歇性动作组成的视频级异常动作。由于对目标异常行为限制较少的优点，本文承担了这一任务。异常动作识别也可以分为有监督和无监督学习环境，与第 2.1. 节相同。在监督环境中，基于外观的方法将 3D CNN 应用于 RGB 和光流图像 [7]，或者将长短期记忆网络应用于背景 / 帧减法算法的结果 [14]。另一方面，在无监督的情况下，基于骨架的方法 [20] 使用来自观察的重建的人体骨架序列，类似于视频异常检测任务。无监督的基于骨架的方法具有第 1 节中列出的局限性。用于视频异常检测和异常动作识别等任务。

2.3. 零样本动作识别

由于自然语言处理领域的快速发展，视觉和语言领域一直在积极研究零样本视觉识别任务，该任务通过描述目标的文本提示来识别视觉数据中看不见的目标。例如，零样本图像分类任务 [6、25] 采用一对图像及其文本提示来识别训练期间未见过的类别。此外，视觉问答任务 [5、11] 通过文本输入一对图像及其相应的问题。通过在图像特征和从提示中提取的文本嵌入之间引入对比学习 [25]，此类任务的性能得到显着增强。

最近，对比学习也被引入到动作识别中 [23、35]，它利用了未见过的目标动作的文本提示。在这些方法中，以零样本的方式识别动作，将文本嵌入与训练期间从视频中提取的外观或骨架特征对齐。本研究在识别异常行为的任务中引入了零样本方法，以增强对异常行为分布的建模。

2.4. 基于骨架的动作识别

监督异常动作识别任务可以被视为使用具有正常和异常真实标签的数据集的监督动作识别任务。人们已经使用各种主要使用 GNN 的基于骨架的方法来研究时间序列关节之间的关系 [8、18、31、42]。相比之下，SPIL [32] 将人体骨骼序列视为输入 3D 点云，并且是一种仅在架构概念上与所提出的方法竞争的技术。它通过注意力机制来模拟关节之间的密集关系 [36]。所提出的架构通过稀疏地传播关节之间的特征来提高针对输入错误（例如 FP 和 FN 关节或姿势跟踪错误）的鲁棒性。

3. 方法

该框架的流程包括（1）预训练，其中 DNN 在没有正常样本的动作识别数据集上进行训练；（2）训练，仅计算（训练）正常样本的分布，而不训练 DNN；（3）推理，其中使用分布和未见过的动作的文本提示来计算异常分数。图 2 说明了目标域中的步骤（2）和（3）。预训练阶段在第 3.3. 节中进行了描述。

图 2

图 2. 拟议框架概述。不包括 DNN 预训练。

首先，在训练和推理阶段，多人姿势估计被应用于输入视频以提取人体关节。然后，每个关节都转换为 DNN 的输入向量 $\mathbf{v}$ 。 $v$ 是一个七维向量，由图像上的二维关节坐标、时间索引、关节置信度、关节索引和根据人体关节计算的二维质心坐标组成。输入向量中的每个元素都在 0 和 1 之间归一化。所有输入向量 $\mathcal{V}=\left\{\mathbf{v}_1,\ · · ·,\mathbf{v}_J\right\}$ 都被视为 3D 点云，输入到 DNN 以提取骨架特征 $\mathbf{x}\in\mathbb{R}^S$ 。异常得分定义为表示 $\mathbf{x}$ 不属于正常样本的概率 $p\left(O|\mathbf{x}\right)$ 和表示 $\mathbf{x}$ 包含用户指定的异常行为的概率 $p\left(T|\mathbf{x}\right)$ 的联合概率，表示为如下：

公式 1

其中 $O$ 和 $T$ 是二元随机变量。在以下各节中，方程（1）右侧的每一项对训练方案进行了详细描述。

在正常样本的训练阶段， $p\left(O|x\right)$ 的参数对训练样本中 $\mathbf{x}$ 的分布进行建模。 $p\left(T|x\right)$ 的参数是与 $\mathbf{x}$ 相比的文本嵌入，并在第 3.2. 节中进行了描述。我们向第 3.4. 节中描述的特征提取器提出了一种基于 PointNet [24] 的机制。使用大规模动作识别数据集（例如 Kinetics400）进行预训练。作为预训练阶段的一部分，我们引入了骨架特征和文本嵌入之间的对比学习方案，并使用动作分类和对比损失来训练 DNN，如第 3.3. 节中所述。以下部分将更详细地介绍上述内容和预训练方案。

3.1. OoD 分数

我们在等式（1）中近似 $p\left(O|x\right)$ ，采用马哈拉诺比斯距离作为一个分数，称为 OoD 分数，表示 $x$ 不是正常样本，如下：

公式 2

其中 $\left(w_1,\ w_2\right)$ 分别是归一化常数和温度参数。 $\boldsymbol{\mu}$ 和 $\mathbf{\Sigma}$ 分别是训练样本分布的均值向量和协方差矩阵。

在无监督图像异常检测的背景下，Rippel 等人 [28] 使用从正常样本中提取的图像特征的多元高斯分布对异常分数进行建模，同时在训练阶段冻结 DNN 的权重。与 Rippel 等人 [28] 专注于图像输入相反，异常动作识别必须处理人体骨骼序列的无序输入数据，其中包括关节的 FP 和 FN、姿势跟踪误差或人数量的变化。如第 1. 节所述。所提出的特征提取器建立在 PointNet [24] 的基础上，它可以处理广泛的骨架序列，因为它具有输入向量顺序的排列不变属性。在实验中，我们证明仅使用 $p\left(O|\mathbf{x}\right)$ 作为异常分数的情况也可以实现无监督异常动作识别，而无需在训练阶段更新 DNN 的权重。

图 3

图 3. 预训练阶段骨架特征和文本嵌入之间的对比学习概述。

3.2. 提示动作得分

我们在等式（1）中近似 $p\left(T|\mathbf{x}\right)$ 作为一个分数，称为提示引导动作分数，它表示 $x$ 包括用户指定的动作。在推理阶段，给定由文本编码器提取的 $P$ 个文本嵌入 $\mathcal{Y}=\left\{\mathbf{y}_1,\ \cdot\cdot\cdot,\ \mathbf{y}_P\right\}$ ， $p\left(T|\mathbf{x}\right)$ 近似为：

公式 3

$\rm{PromptScore}\left(\cdot|\cdot\right)$ 的公式为：

公式 4

其中 $\rm{Cos}\left(\cdot,\ \cdot\right)$ 表示两个向量之间的余弦相似度， $f$ 表示用于对齐 $\mathbf{x}$ 和 $\mathbf{y}$ 维度的预训练多层感知器（MLP）。

3.3. 预训练

本节讨论使用大规模动作识别数据集提出的预训练方案。我们在预训练阶段使用骨架特征和从动作类名称提取的文本嵌入之间的对比学习，以及使用视频级动作标签的动作分类任务的多任务学习。我们将一批 $N$ 个视频中的动作分类损失 $\mathcal{L}_{cls}$ 和对比损失 $\mathcal{L}_{cont}$ 组成的总损失 $\mathcal{L}$ 定义如下：

公式 5

其中 $\alpha$ 是损失函数的混合比。分类损失 $\mathcal{L}_{cls}$ 被公式化为交叉熵损失，如下所示：

公式 5

其中 $C$ 是动作类别的数量， $\left(h_1,\ · · · ,h_C\right)$ 是一个真实的、单热的动作类别向量， $\left(l_1,· · · ,l_C\right)$ 是使用完全函数从 $\mathbf{x}$ 计算出的对数-连接层。

基于 CLIP [25] 提出的损失函数，使用对称对比损失来制定对比损失 $\mathcal{L}_{cont}$ ，如下：

公式 7

其中 $\mathcal{L}_{\rm{s2t}}$ 是骨架特征与批次中文本嵌入的对比损失， $\mathcal{L}_{\rm{t2s}}$ 是与 $\mathcal{L}_{\rm{s2t}}$ [19] 相反的损失。如图 3 所示， $\mathcal{L}_{\rm{s2t}}$ 和 $\mathcal{L}_{\rm{t2s}}$ 的最小化最大化了骨架特征及其动作类文本嵌入的正对的余弦相似度。此外，它还最小化了负对的相似性。 $\mathcal{L}_{\rm{s2t}}$ 和 $\mathcal{L}_{\rm{t2s}}$ 的公式为：

公式 8

公式 9

其中，从每个视频 $i$ 中获取正对 $\mathbf{x}_i$ 及其动作类文本嵌入 $\mathbf{y}_i$ 。 $τ$ 是可学习的温度参数。

3.4. 骨骼特征提取器

在本研究中，我们将骨架特征提取器设计为排列不变的 DNN 架构，利用 MaxPooling 操作在关节之间稀疏地传播特征，以增强第 1 节中描述的鲁棒性。受到 PointNet [24] 的启发。这种类型的稀疏特征传播放松了对输入关节的大小或顺序的限制，并且可以处理包括关节的 FP 和 FN、姿态跟踪误差或任意数量的人的无序骨架序列。

图 4

图 4. 骨架特征提取器的 DNN 架构。

该架构如图 4 所示。它受到 ResNet [13] 的启发，具有由逐点残差模块组成的简单设计，为每个关节重复 MLP。给定输入向量 $\mathcal{V}=\left\{\mathbf{v}_1,\ · · ·,\mathbf{v}_J\right\}$ ，我们计算骨架特征 $\mathbf{x}$ 如下：

公式 10

其中 $\rm{MaxPool}(·)$ 是从输入向量中获取每个通道的最大值的对称运算。 $G$ 是为每个输入关节提取高阶表示的 DNN。

具体来说， $G$ 在迭代执行残差 MLP 块 $r$ 次之前首先将 MLP 运算应用于输入向量。该残差 MLP 块从输入向量 $\mathbf{u}_{in}\in\mathbb{R}^{D_{in}}$ 中提取输出向量 $\mathbf{u}_{out}\in\mathbb{R}^{D_{out}}$ ，其公式为：

公式 11

其中 $\mathbf{W}_1\in\mathbb{R}^{D_{out}\times D_{in}}$ 是可学习的权重矩阵。在这里，为了将瓶颈架构呈现到这个残差块中，我们将 $\phi$ 定义为 3 层 MLP，如下所示：

公式 12

其中 $\mathbf{W}_2\in\mathbb{R}^{\beta D_{out}\times D_{in}},\ \mathbf{W}_3\in\mathbb{R}^{\beta D_{out}\times\beta D_{in}}$ 和 $\mathbf{W}_4\in\mathbb{R}^{D_{out}\times\beta D_{in}}$ 是可学习权重矩阵， $\beta$ 是 MLP 瓶颈比率。 $\rm{Norm}(·)$ 是归一化层， $\sigma$ 是非线性激活函数。

4. 实验

通过将两种情况下的准确性与传统方法进行比较，我们评估了所提出的框架对于第 1 节中描述的限制的有效性。一是异常动作可以由用户指定。另一个是它的定义不明确，导致用户只能描述在训练阶段看到的有限数量的正常动作。这些案例分别使用两个动作识别数据集 RWF-2000 [7] 和 Kinetics-250 [20] 进行评估。此外，消融研究验证了所提出方法的精确性能，包括其对骨架检测错误、文本提示变化和域转移的鲁棒性。使用 UT-Interaction 数据集 [29] 的定性结果如图 2 所示。有关实现细节，请参阅补充材料。

4.1. 数据集

两个动作识别数据集 RWF-2000 [7] 和 Kinetics-250 [20] 用于第 2 节中讨论的两个评估设置。4.3. 每个数据集都分别使用基于监督学习（SL）和基于无监督学习（USL）的方法进行了检查。请注意，与此类方法不同，我们的方法不需要使用正常样本进行任何 DNN 训练。此外，我们使用两个大型动作识别数据集 Kinetics-400 [4] 和 NTU RGB+D 120 [17] 来预训练所提出的 DNN。考虑到视频源与相应评估数据集的差异或存在领域差距，分别选择每个预训练数据集 [17]，并且观察到大量动作。标签。图 1 描述了评估（训练和测试）和预训练阶段使用的数据集的组合。

Kinetics-400。Kinetics-400 [4] 是一个大规模动作识别数据集，从 YouTube4 视频中收集，包含 400 个动作类别。它包含 250K 训练和 19K 验证 30 fps 的 10 秒视频片段。

RWF-2000。RWF-2000 [7] 是从 YouTube 视频收集的暴力识别数据集。这些视频包含暴力或非暴力的两种动作，由安全摄像头捕捉到，人物和背景各异。有 1.6K 训练和 0.4K 测试 30 fps 的 5 秒视频片段。每个视频都标注了两类标签。

NTU RGB+D 120。NTU RGB+D 120 [17] 是一个大规模动作识别数据集，包含在实验室环境中捕获的视频。它包含 114k 个视频和 120 个动作类别。我们使用交叉设置（X-set）设置进行数据分割，其中训练和测试阶段的相机设置不同 [20]。

Kinetics-250。Kinetics-250 [20] 是 Kinetics400 数据集的子集，由具有 250 个动作类别的视频组成。由于 Kinetics-400 数据集包含专注于人类头部和手臂的视频，因此基于骨架的方法的准确性会受到这些视频的显着影响。因此，Markovitz 等人 [20] 选择了具有 250 个动作类别的视频进行评估，这些视频在动作分类准确性方面表现最好，并且可以准确检测骨骼。在本研究中，我们采用了 Markovitz 等人提出的评估设置，如第 4.3. 节所述。

4.2. 姿势检测器

PPN。如表所示。1，在 RWF-2000 数据集上的实验中，我们在与几个基线（PointNet ++ 和 DGCNN）相似的异常动作识别精度的条件下使用低性能的姿势提议网络（PPN）检测器 [30]，因为没有公开可用的骨架数据。PPN [30] 以自下而上的方式从 RGB 图像中高速检测人体骨骼。它们由 Pelee 主干网 [38] 组成，并在 MS-COCO 数据集 [15] 上进行训练。人体骨骼的定义与 OpenPose [3] 相同。作为 PPN 的输入，我们将图像大小调整为 320×224 px2。

HRNet。HRNet [34] 是一个自上而下的姿势检测器。它获得了卓越的准确性，但包括人类检测器（Faster R-CNN [27]）在内的计算成本非常昂贵。在 Kinetics-250 数据集的实验中，我们采用了 Haodong 等人 [9] 给出的公开可用的 HRNet 骨架。

4.3. 评价设置

RWF-2000。在之前的研究中，RWF-2000 数据集用于评估以监督方式训练的模型的暴力行为识别准确性。在本文中，非暴力和暴力行为分别被定义为正常和异常。该方法与监督方法的不同之处在于，该方法的训练阶段使用非暴力动作样本，并且 DNN 权重在整个阶段被冻结。因此，所提出的方法以零样本的方式识别暴力行为，不需要在训练期间观察任何异常（暴力）行为或真实标签。我们使用五种不同的手工制作的文本提示来表达暴力行为，测试了所提出方法的准确性，并使用了准确率最高的一种（见表 6）。以暴力或非暴力的分类准确率作为评价指标。PPN 在 MS-COCO 验证集上的姿态检测平均精度为 36.4%。请注意，实验中的基线使用高精度姿态检测器 RMPE [10]，其姿态检测平均精度为 72.3%。

Kinetics-250。Kinetics-250 数据集上的评估设置遵循之前的研究 [20]。特别是，我们使用 “少” 与 “多” 设置，将三到五个操作类定义为正常，其余操作类定义为异常。与仅少数类别被定义为异常的其他设置相比，这一设置对所提出的方法提出了更大的挑战。使用两个数据分割（随机分割和有意义分割）进行评估。随机分割中的少数类别由三到五个动作类别组成，这些类别是从 Kinetics-250 中定义的动作类别中随机选择的。有意义的分割由 Markovitz 等人的类集组成。根据有关动作的物理或环境属性的一些约束逻辑进行主观分组。我们采用每个分割的平均 ROC-AUC 作为评估指标。

如前所述，所提出的方法仅使用少数类别的标签文本作为文本提示。因此，为了使用此类提示确定提示引导的动作得分，我们更新了第 4.4 节中解释的定义，作为异常动作的条件。以下是修改后的方程（4）：

公式 13

4.4. 与 SoTA 方法的比较

表 2 和表 3 分别总结了所提出的方法以及 RWF-2000 和 Kinetics-250 数据集上最先进的（SoTA）方法的异常动作识别准确性。如表 2 所示，所提出的提示引导框架（我们的）在准确性方面优于以前的几种监督方法，包括 PointNet++ [32]、DGCNN [32] 和 ST-GCN [42]。尽管我们的方法中使用了不准确的姿态检测器（PPN），但其精度也仅比 SPIL [32] 低 7 个百分点。此外，选项卡。图 3 表明所提出的方法（我们的）的准确性优于 SoTA 无监督方法。尽管之前的方法需要花费一些时间来训练 DNN，但所提出方法的这些结果是在目标域中无需进行任何 DNN 训练的情况下实现的。

表 1

表 1. 用于评估我们的方法的数据集组合。

表 2

表 2. RWF-2000 数据集上基于骨架的异常动作识别方法的性能比较。之前的方法都是以监督方式进行训练的。*：HRNet 骨架用作输入。†：采用 StructPool [12] 作为网络架构。

表 3

表 3. 基于骨架的异常动作识别方法在 Kinetics-250 数据集上的性能比较。以前的方法是以无监督的方式进行训练的。†：采用 StructPool [12] 作为网络架构。

此外，所提出的完全实现的异常分数（我们的）优于其部分异常分数；OoD 分数（仅 OoD）和提示引导动作分数（仅提示），在第 3.1 和 3.2 节中进行了解释。如表 3 所示，所提出的方法（Only OoD）仅使用OoD分数作为异常分数，以及完全实现的方法（Ours），优于以前的无监督方法。因此，所提出的方法在训练期间冻结 DNN 权重，即使不提供文本提示，也可以以无监督的方式识别异常动作。考虑到上述发现，所提出的方法实现了零样本异常动作识别，消除了对正常样本的目标域相关的 DNN 训练，如第 1. 节所述。

此外，通过使用文本提示（仅提示与我们的提示）提高了所提出方法的准确性。该结果表明，所提出的方法通过使用文本提示补充异常或正常动作的信息（第1节中的第二个正常样本限制），减少了将正常动作识别为异常的误检测。图 5 描绘了 RWF-2000 数据集上异常样本和正常样本之间移动的决策边界。此外，在比较选项卡之间所提出的方法（仅提示）的准确性时，该方法仅使用提示引导的动作分数。从表 2 和表 3 可以看出，与 Kinetics-250 上完全实现的方法（我们的）相比，精度严重下降，这比 RWF-2000 上的更明显。这是因为所提出的方法仅在 Kinetics-250 数据集上定义了一些正常动作，而没有直接使用文本提示作为异常动作。因此，即使用户仅定义正常操作，所提出的方法也可以检测异常行为。

图 5

图 5. RWF-2000 样本在使用 t-SNE 压缩的 2D 骨架特征空间中的分布。OoD 分数决策边界（左）被提示引导的动作分数（右）移动。

4.5. 消融研究

针对骨架检测和跟踪误差的鲁棒性比较。

表 4 比较了所提出的方法与 ST-GCN [42] 在 RWF-2000 数据集上针对第 1 节中描述的骨架检测误差（FP、FN 和跟踪误差）的鲁棒性。在本研究中，我们综合了三种不同类型的骨架检测误差：FP、FN 和跟踪误差。FP 误差是通过将从正态分布采样的噪声添加到二维关节坐标而产生的。通过将关节置信度得分和关节坐标按特定比例替换为 0，产生 FN 误差。例如，如果骨架检测误差率为 20％，我们对 20％的输入关节综合生成 FP 和 FN 误差，并在 150 帧视频中随机切换它们的跟踪索引 60 帧以生成跟踪误差。与表中基于 GNN 的监督方法 [42] 进行比较。如图 4 所示，即使骨架错误率上升，所提出方法的精度也不会降低。

表 4

表 4. RWF-2000 数据集上针对骨架检测错误的鲁棒性比较。

针对域转移的鲁棒性比较。我们将 RWF-2000 训练数据分为五个子集作为不同的场景，并将每个子集用作评估方法的单独模式。表 5 显示了这五次评估的五次准确度的平均值和方差。我们的方法的方差显然是稳定的，并且代表了针对域转移的鲁棒性。

比较准确性与文本提示的变化。表 6 展示了所提出方法的准确性，该方法使用五种不同的文本提示，具有不同的异常分数。完全实现的方法（Full.）提高了仅使用 OoD 分数作为异常分数的情况下的准确性（表 2 中的 71.8％）。这表明，使用合理的文本提示可以减少对训练阶段未观察到的正常动作的误检测。此外，对于五个文本提示，通过使用 OoD 分数（仅提示与完整）提高了提示引导动作分数的准确性。因此，文本提示识别异常行为，与从正常数据中收集的信息相辅相成。

表 5

表 5. RWF-2000 数据集上的域偏移比较。

表 6

表 6. 在 RWF-2000 数据集上使用不同文本提示的所提出方法的准确性比较。

5. 讨论

特征提取器的泛化。所提出的特征提取器的泛化自然取决于其预训练数据集的域。我们预计，由于数据集构建的最新发展，可以缩小这一领域差距，这使得从网络和社交媒体源编译大量带字幕的视频成为可能。因此，类似于最近的视觉和语言 [6、25] 以及图像异常检测 [26、28] 范式，可以通过使用大量的标题和自动提取的骨架来进行更大规模和更通用的表示学习，而无需手动注释。

对文本提示质量的依赖。文本提示引导的零样本学习的准确性取决于文本提示的质量，并且实际上需要耗时的提示工程。提示学习研究的最新进展提出了上下文优化 [44]，与使用手工提示的零样本推理相比，它在视觉和语言上下文中产生了更好的结果。因此，异常动作识别的准确性得益于不是手工制作的而是可学习的提示，并且可以自动提高。

6. 结论

本文提出了一种新颖的用户提示引导的零样本学习框架，可以在视频级别识别异常动作，以解决现有基于骨架的异常动作识别方法的局限性。我们的核心思想包括三个部分：（1）利用预训练的、目标域不变的特征提取器，该特征提取器使用骨架作为输入。（2）将公共空间中对齐的骨架特征和用户提示嵌入之间的相似度得分整合到异常得分中。（3）创建排列不变且抗骨架错误的 DNN 架构。在实验中，我们测试了所提出的框架针对局限性的有效性。

参考文献

[1] Amit Adam, Ehud Rivlin, Ilan Shimshoni, and Daviv Reinitz. Robust Real-Time Unusual Event Detection using Multiple Fixed-Location Monitors. PAMI, 30(3):555–560, 2008. 2
[2] Y. Benezeth, P.-M. Jodoin, V. Saligrama, and C. Rosenberger. Abnormal Events Detection based on Spatiotemporal Co-occurences. In CVPR, 2009. 2
[3] Zhe Cao, Gines Hidalgo, Tomas Simon, Shih-En Wei, and Yaser Sheikh. OpenPose: Realtime Multi-Person 2D Pose Estimation Using Part Affinity Fields. PAMI, 43(1):172–186, 2021. 1, 6
[4] Joao Carreira and Andrew Zisserman. Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset. In CVPR, 2017. 2, 6
[5] Paola Cascante-Bonilla, Hui Wu, Letao Wang, Rogerio S. Feris, and Vicente Ordonez. SimVQA: Exploring Simulated Environments for Visual Question Answering. In CVPR, 2022. 3
[6] Soravit Changpinyo, Piyush Sharma, Nan Ding, and Radu Soricut. Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts. In CVPR, 2021. 3, 8
[7] Ming Cheng, Kunjing Cai, and Ming Li. RWF-2000: An Open Large Scale Video Database for Violence Detection. In ICPR, 2021. 1, 3, 5, 6
[8] Hyung-gun Chi, Myoung Hoon Ha, Seunggeun Chi, Sang Wan Lee, Qixing Huang, and Karthik Ramani. InfoGCN: Representation Learning for Human SkeletonBased Action Recognition. In CVPR, 2022. 3
[9] Haodong Duan, Yue Zhao, Kai Chen, Dahua Lin, and Bo Dai. Revisiting Skeleton-Based Action Recognition. In CVPR, 2022. 6
[10] Hao-Shu Fang, Shuqin Xie, Yu-Wing Tai, and Cewu Lu. RMPE: Regional Multi-Person Pose Estimation. In ICCV, 2017. 1, 6
[11] Vipul Gupta, Zhuowan Li, Adam Kortylewski, Chenyu Zhang, Yingwei Li, and Alan Yuille. SwapMix: Diagnosing and Regularizing the Over-Reliance on Visual Context in Visual Question Answering. In CVPR, 2022. 3
[12] Ryo Hachiuma, Fumiaki Sato, and Taiki Sekii. Unified Keypoint-based Action Recognition Framework via Structured Keypoint Pooling. In CVPR, 2023. 7
[13] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep Residual Learning for Image Recognition. In CVPR, 2016. 5
[14] Zahidul Islam, Mohammad Rukonuzzaman, Raiyan Ahmed, Md. Hasanul Kabir, and Moshiur Farazi. Efficient TwoStream Network for Violence Detection Using Separable Convolutional LSTM. In IJCNN, 2021. 1, 3
[15] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollar, and C. Lawrence ´ Zitnick. Microsoft COCO: Common Objects in Context. In ECCV, 2014. 6
[16] Chengming Liu, Ronghua Fu, Yinghao Li, Yufei Gao, Lei Shi, and Weiwei Li. A Self-Attention Augmented Graph Convolutional Clustering Networks for SkeletonBased Video Anomaly Behavior Detection. Applied Sciences, 12(1), 2022. 1, 2, 3
[17] Jun Liu, Amir Shahroudy, Mauricio Perez, Gang Wang, Ling-Yu Duan, and Alex C Kot. NTU RGB+D 120: A large-scale benchmark for 3D human activity understanding. PAMI, 42(10):2684–2701, 2020. 6
[18] Ziyu Liu, Hongwen Zhang, Zhenghao Chen, Zhiyong Wang, and Wanli Ouyang. Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition. In CVPR, 2020. 3
[19] Zongyang Ma, Guan Luo, Jin Gao, Liang Li, Yuxin Chen, Shaoru Wang, Congxuan Zhang, and Weiming Hu. OpenVocabulary One-Stage Detection With Hierarchical VisualLanguage Knowledge Distillation. In CVPR, 2022. 5
[20] Amir Markovitz, Gilad Sharir, Itamar Friedman, Lihi ZelnikManor, and Shai Avidan. Graph Embedded Pose Clustering for Anomaly Detection. In CVPR, 2020. 1, 2, 3, 6, 7
[21] Alina-Daniela Matei, Estefania Talavera, and Maya Aghaei. Crime scene classification from skeletal trajectory analysis in surveillance settings. arXiv preprint arXiv:2207.01687, 2022. 3
[22] Romero Morais, Vuong Le, Truyen Tran, Budhaditya Saha, Moussa Mansour, and Svetha Venkatesh. Learning Regularity in Skeleton Trajectories for Anomaly Detection in Videos. In CVPR, 2019. 1, 2, 3
[23] Sauradip Nag, Xiatian Zhu, Yi-Zhe Song, and Tao Xiang. Zero-shot temporal action detection via vision-language prompting. In ECCV, 2022. 3
[24] Charles R. Qi, Hao Su, Kaichun Mo, and Leonidas J. Guibas. PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation. In CVPR, 2017. 4, 5
[25] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. Learning Transferable Visual Models From Natural Language Supervision. In ICML, 2021. 3, 5, 8
[26] Tal Reiss, Niv Cohen, Liron Bergman, and Yedid Hoshen. PANDA: Adapting Pretrained Features for Anomaly Detection and Segmentation. In CVPR, 2021. 8
[27] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. In NeurIPS, 2015. 6 [28] Oliver Rippel, Patrick Mertens, and Dorit Merhof. Modeling the Distribution of Normal Data in Pre-Trained Deep Features for Anomaly Detection. In ICPR, 2021. 4, 8
[29] Michael S. Ryoo and Jake K. Aggarwal. Spatio-Temporal Relationship Match: Video Structure Comparison for Recognition of Complex Human Activities. In ICCV, 2009. 6 [30] Taiki Sekii. Pose Proposal Networks. In ECCV, 2018. 1, 6
[31] Lei Shi, Yifan Zhang, Jian Cheng, and Hanqing Lu. Two-Stream Adaptive Graph Convolutional Networks for Skeleton-Based Action Recognition. In CVPR, 2019. 3
[32] Yukun Su, Guosheng Lin, Jinhui Zhu, and Qingyao Wu. Human Interaction Learning on 3D Skeleton Point Clouds for Video Violence Recognition. In ECCV, 2020. 1, 3, 7
[33] Waqas Sultani, Chen Chen, and Mubarak Shah. Real-World Anomaly Detection in Surveillance Videos. In CVPR, 2018. 1
[34] Ke Sun, Bin Xiao, Dong Liu, and Jingdong Wang. Deep High-Resolution Representation Learning for Human Pose Estimation. In CVPR, 2019. 6
[35] Guy Tevet, Brian Gordon, Amir Hertz, Amit H Bermano, and Daniel Cohen-Or. MotionCLIP: Exposing Human Motion Generation to CLIP Space. In ECCV, 2022. 3
[36] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Ł ukasz Kaiser, and Illia Polosukhin. Attention is All you Need. In NeurIPS, 2017. 3
[37] Jue Wang and Anoop Cherian. GODS: Generalized OneClass Discriminative Subspaces for Anomaly Detection. In ICCV, 2019. 3
[38] Robert J. Wang, Xiang Li, and Charles X. Ling. Pelee: A Real-Time Object Detection System on Mobile Devices. In NeurIPS, 2018. 6
[39] X. Wang, Zhengping Che, Ke Yang, Bo Jiang, Jian-Bo Tang, Jieping Ye, Jingyu Wang, and Q. Qi. Robust Unsupervised Video Anomaly Detection by Multipath Frame Prediction. Neural Networks and Learning Systems, 33:2301– 2312, 2022. 1
[40] Philippe Weinzaepfel and Gregory Rogez. Mimetics: To- ´ wards Understanding Human Actions out of Context. IJCV, 129(5):1675–1690, 2021. 1, 3
[41] Yongqin Xian, Christoph Lampert, Bernt Schiele, and Zeynep Akata. Zero-Shot Learning - A Comprehensive Evaluation of the Good, the Bad and the Ugly. In CVPR, 2017. 2
[42] Sijie Yan, Yuanjun Xiong, and Dahua Lin. Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition. In AAAI, 2018. 2, 3, 7, 8
[43] M. Zaigham Zaheer, Arif Mahmood, M. Haris Khan, Mattia Segu, Fisher Yu, and Seung-Ik Lee. Generative Cooperative Learning for Unsupervised Video Anomaly Detection. In CVPR, 2022. 1, 3
[44] Kaiyang Zhou, Jingkang Yang, Chen Change Loy, and Ziwei Liu. Learning to prompt for vision-language models. IJCV, 130(9):2337–2348, 2022. 8