Abstract

一种完全基于空间和时间上的自注意的视频分类无卷积方法。
方法名为“TimeSformer”。
通过直接从一系列帧级patch中学习时空特征，使标准Transformer架构适应视频。
比较了不同的自我注意方案，divided attention能够获得最佳的视频分类精度。
与3D卷积网络相比，我们的模型训练速度更快，可以实现显著更高的测试效率（精度略有下降），它还可以应用于更长的视频片段（超过一分钟）。

Introduction

Transformer模型在捕获单词之间的长距离依赖关系以及训练可扩展性方面表现出色。
视频理解与NLP的高度相似之处：
- videos and sentences are both sequential
- 正如一个单词的意思通常只能通过与句子中的其他单词联系起来才能理解一样，可以认为，短期片段中的atomic actions需要与视频的其余部分结合起来，才能完全消除歧义。
没有人尝试将自我注意用作视频识别模型的唯一构建块。
这样的设计有潜力克服视频分析卷积模型的一些固有限制。

首先，虽然它们强烈的归纳偏差（例如，局部连通性和平移等方差）无疑对小训练集有益，但在数据充足且“全部”可以从示例中学习的环境中，它们可能会过度限制模型的表达能力。。与CNN相比，Transformer施加的限制性偏差较小，这扩大了它们的表达能力，并使它们更适合现代大数据体制，在那里对强诱导先验知识的需求更少。

第二，虽然卷积核是专门设计用来捕获短程时空信息的，但它们不能对超出感受野的依赖关系建模。虽然卷积的深层叠加自然地扩展了感受野，但这些策略在通过聚集较短范围的信息来捕获长程依赖性方面存在固有的局限性。相反，通过直接比较所有时空位置的特征激活，可以应用自我注意机制来捕获局部和全局的长距离依赖，感受野更大。【这儿是在说感受野有限，或者说是感受野太小了】

最后，尽管GPU硬件加速方面取得了进步，但深层CNN的培训仍然非常昂贵，尤其是在应用于高分辨率和长视频时。与CNN相比，Transformers具有更快的训练和推理能力，因此可以为相同的计算预算构建具有更大学习能力的模型。

将视频视为从各个帧中提取的patch序列。每个patch都线性映射到一个嵌入中，并用位置信息进行增强。这使得可以将产生的矢量序列解释为token embeddings，可以将其馈送到Transformer编码器。
标准Transformer中self attention的一个缺点是，它需要计算所有令牌对的相似性度量，因此计算成本很高。想到在网络的每个块中分别应用时间注意力和空间注意力。
与基于卷积的视频架构的既定范例相比，TimeSformer采用了截然不同的设计。然而，它的精度与该领域的最新技术相当，在某些情况下甚至更高。我们还表明，我们的模型可以用于对跨越许多分钟的视频进行远程建模。

Related Work

将注意力用于图像分类，或者结合卷积算子，或者甚至作为它的完全替代
最为接近的：利用自我注意代替卷积的图像网络，但有内存消耗和计算成本的问题。我们实验中考虑的一些自我注意算子采用了类似的稀疏和轴向计算，尽管它们被推广到了时空体。
视觉变换器（ViT），patch + token embedding的思想
有大量文献基于文本转换与视频CNN的结合来解决各种视频语言任务

TimeSFormer Model

输入视频：HW3通道*F帧
分解为patch：每一帧分解为N个patch，每个patch像素点数为3PP
线性嵌入：通过一个可学习矩阵相乘，再加上位置编码（可学习的时空位置嵌入），得到z(p, t)，每个patch、每个时间对应一个长度为D的token，再加一个class token，作为Transformer的输入
QKV计算：

自注意力：通过点积运算。

在第a个块、第l个头，对于时间为t、位置为p的token，使用它的q与同一层内所有的其他token取相似度，在进行softmax。

编码：对于第a个块、第l个头、时间为t、位置为p的token，使用注意力系数加权求和（仅关心同一块、同一头内的其他token）

之后，将同一块内所有头的计算结果连接起来，再乘以一个矩阵，之后经过MLP，这一个多层注意力块就计算完成了。

Classification embedding：再加一个LN与MLP，得到最终输出。
Space-Time Self-Attention Models：提出T+S的注意力方式，T与S逐个应用。
- T：对于每个token，比较相同位置、不同时间的所有token

S：…
Sparse Local Global：首先考虑所有时间上、空间上相邻的patch（local），之后以步长为2计算稀疏的patch（global）。是使用局部/全局分解和稀疏模式的完全时空注意力的近似。
Aixal：时间、宽、高

Experiments

方案：使用大小为8×224×224的clip，帧采样率为1/32。patch大小为16×16像素。在ImageNet-21K预训练ViT。
K400 与 SSv2：
- 在K400上，空间线索比时间信息更重要，在K400上不需要任何时间建模就可以获得可靠的精度。仅关注空间在SSv2上表现不佳。
- 在SSv2上，ImageNet-1K和ImageNet-21K预处理导致类似的精度。因为SSv2需要复杂的时空推理，而K400更倾向于空间场景信息，因此，它从更大的预处理数据集上学习到的特征中受益匪浅。
- 在K400上，TimeSformer在所有情况下都表现最佳。在SSv2上，需要更复杂的时间推理，只有在使用足够的训练视频时，TimeSformer才能优于其他模型。
- 仅使用空间位置嵌入会在Kinetics-400上产生可靠的结果，但在Something-Something-V2上会产生更差的结果。这是因为Kinetics-400更具空间偏见，而SomethingSomething-V2需要复杂的时间推理。

计算成本（左图为增大空间分辨率，右图为增大视频帧数）：

TimeSformer更适合涉及大规模学习的环境。相比之下，现代3D CNN的巨大计算成本使得在保持效率的同时难以进一步增加其模型容量。
三种变体：
- TimeSformer：8 × 224 × 224 video clips
- TimeSformer-HR：16 × 448 × 448 video clips
- TimeSformer-L：96 × 224 × 224
在Diving-48数据集：TimeSformer的精度低于此数据集上的最佳模型。然而，考虑到我们的模型使用了一种完全不同的设计，我们认为这些结果表明TimesFormer是一种很有前途的方法，即使对于具有挑战性的时间密集型数据集（如SSv2）也是如此。
长期视频建模：HowTo100M数据集。只考虑了有至少100个视频数据的实例，也就是一个子集。

Conclusion

在这项工作中，我们引入了TimeSformer，这是一种与基于卷积的视频网络的既定范式相比根本不同的视频建模方法。
我们表明，完全基于时空自我关注来设计有效的、可伸缩的视频架构是可能的。我们的方法：
（1）概念简单，
（2）在主要动作识别基准上取得了最先进的结果，
（3）训练和推理成本低，
（4）可以应用于超过一分钟的剪辑，从而实现长期视频建模。
未来，我们计划将我们的方法扩展到其他视频分析任务，如动作定位、视频字幕和问答。

TimeSformer：Is Space-Time Attention All You Need for Video Understanding 论文速读与核心要点总结