CLIP在视频领域的应用（CLIPBERT，CLIP4Clip，CLIP2Video，CLIPTV）

CLIP论文之后，涌现了很多任务，由于原始CLIP是为了图像设计的，因此这篇博文整理了几篇改装CLIP进行视频理解的工作。关于CLIP细节不做赘述，可以参考博主以前的博文：

大规模图文预训练模型：CLIP，DALL-E

在这里插入图片描述
CLIPBERT
来自CVPR2021。作者的motivation来自于，目前大部分预训练模型都使用提前提取好的特征提取器，然而1）固定的特征对于不同的下游任务来说不是最优的，且不同的模态的特征相互独立。2）密集的视频特征的计算量要求较高，以原视频作为输入太慢了，因此特征提取器很难参与到微调中。

因此作者提出了CLIPBERT，通过稀疏采样，即只使用一个或几个稀疏采样的视频短片段来代替整个视频，以less-is-more的原则使模型可以负载端到端学习。如上图所示，该模型仅仅使用少量的短片段即可，然后对多个短片段的预测进行融合如平均池化，以得到最终在整个视频级上的预测。这种先稀疏训练后密集推理的策略可以大大减少内存需求和计算量。具体的CLIPBERT的结构如下图所示：
在这里插入图片描述
博主个人觉得值得注意的点有：

Sparse Sampling。稀疏采样的策略会随机地从完整视频中进行抽取并用于训练，这个数目比使用所有片段要少得多。
对于视觉编码器，作者使用内存消耗更少且更快的2D CNN即ResNet-50，而不是3D体系结构（如C3D或I3D)。因此对于每个抽样的短片段，都会对T个帧进行均匀采样。然后基于空间位置添加一个基于行和一个基于列的位置嵌入。

更多细节可以看原文：
paper：https://arxiv.org/pdf/2102.06183.pdf
code：https://github.com/jayleicn/ClipBERT

在这里插入图片描述
CLIP4Clip
这篇文章的主要研究目标是：如何将知识从图片文本预训练模型CLIP，迁移到视频文本检索任务中。模型框架如上图，主体结构仍然沿用的是CLIP，然后分为三个重要组件：Video Encoder、Text Encoder 和 Similarity Calculator，即文本编码器、视频编码器和相似性计算模块。

Video Encoder。采用CLIP的 image encoder（ViT-B/32），输入多帧图像，也相应会输出多个特征；
Text Encoder 。采用CLIP 的Text encoder抽取文本特征，其中Transformer结构是12层，512，8个注意力头。
Similarity Calculator。用来多帧特征和文本特征相似度，根据模块是否引入新参数进行学习，作者将相似度计算分为三类：无参数方法、序列型和紧凑型，结构分别如上图的下半部分。其中无参数方法直接使用平均池化直接融合视频表示。序列型的视频文本处理采用两个单独的分支。而紧凑型直接用Transformer学多模态交互。

paper：https://arxiv.org/pdf/2104.08860.pdf
code：https://github.com/ArrowLuo/CLIP4Clip

在这里插入图片描述
CLIP2Video
作者motivation来自于想要解决视频-文本的理解，需要同时考虑到两个方面的信息，即1）多模态图像文本训练的空间表示和2）视频帧与视频语言的时间关系。因此，基于能捕获空间状态的CLIP，本文提出的扩展模型主要通过两个模块来实现：时间差分块（Temporal Difference Block，TDB）和时间对齐块（Temporal Alignment Block，TAB）。

时间差分块。在序列中加入图像帧的差分来模拟运动变化。具体来说，以相邻时间戳之间帧嵌入的变换差来表示，即使用sigmoid和差异的注意力来表示，最后全局拼接得到视频表征。
时间对齐块。利用文本上下文和关键帧内容之间的对齐，以增强视频片段和短语之间的相关性。具体实现是使用共享的聚类中心来联合对齐帧和单词嵌入，即计算不同模态特征和共享中心的相关度作为不同cluster中心的权重。

paper：https://arxiv.org/abs/2106.11097
code：https://github.com/CryhanFang/CLIP2Video

在这里插入图片描述
CLIP2TV
结合CLIP和动量蒸馏来做视频文本检索。主要的贡献是在CLIP4CLIP的基础上，在推理阶段引入动量蒸馏。动量蒸馏的引入是为了解决图像文本的弱相关性，即标题不完全覆盖视频，视频片段又不包含文本描述。整体的结构如上图，主干部分和CLIP4CLIP一样，值得注意的点主要有：

Contrastive learning。由于帧特征和标题特征都被投影到了多模态共享空间中，作者试图结合余弦相似性和对比性损失，计算标准化帧表示和标准化标题表示之间的余弦相似度。
Momentum Distillation。动量蒸馏处理图像文本对之间的弱相关性。

paper：https://arxiv.org/pdf/2111.05610.pdf

CLIP在视频领域的应用（CLIPBERT，CLIP4Clip，CLIP2Video，CLIPTV）

猜你喜欢