CLIP在视频领域的应用(CLIPBERT,CLIP4Clip,CLIP2Video,CLIPTV)

CLIP论文之后,涌现了很多任务,由于原始CLIP是为了图像设计的,因此这篇博文整理了几篇改装CLIP进行视频理解的工作。关于CLIP细节不做赘述,可以参考博主以前的博文:

在这里插入图片描述
CLIPBERT
来自CVPR2021。作者的motivation来自于,目前大部分预训练模型都使用提前提取好的特征提取器,然而1)固定的特征对于不同的下游任务来说不是最优的,且不同的模态的特征相互独立。2)密集的视频特征的计算量要求较高,以原视频作为输入太慢了,因此特征提取器很难参与到微调中。

因此作者提出了CLIPBERT,通过稀疏采样,即只使用一个或几个稀疏采样的视频短片段来代替整个视频,以less-is-more的原则使模型可以负载端到端学习。如上图所示,该模型仅仅使用少量的短片段即可,然后对多个短片段的预测进行融合如平均池化,以得到最终在整个视频级上的预测。这种先稀疏训练后密集推理的策略可以大大减少内存需求和计算量。具体的CLIPBERT的结构如下图所示:
在这里插入图片描述
博主个人觉得值得注意的点有:

  • Sparse Sampling。稀疏采样的策略会随机地从完整视频中进行抽取并用于训练,这个数目比使用所有片段要少得多。
  • 对于视觉编码器,作者使用内存消耗更少且更快的2D CNN即ResNet-50,而不是3D体系结构(如C3D或I3D)。因此对于每个抽样的短片段,都会对T个帧进行均匀采样。然后基于空间位置添加一个基于行和一个基于列的位置嵌入。

更多细节可以看原文:
paper:https://arxiv.org/pdf/2102.06183.pdf
code:https://github.com/jayleicn/ClipBERT

在这里插入图片描述
CLIP4Clip
这篇文章的主要研究目标是:如何将知识从图片文本预训练模型CLIP,迁移到视频文本检索任务中 。模型框架如上图,主体结构仍然沿用的是CLIP,然后分为三个重要组件:Video Encoder、Text Encoder 和 Similarity Calculator,即文本编码器 、视频编码器和相似性计算模块 。

  • Video Encoder。采用CLIP的 image encoder(ViT-B/32),输入多帧图像,也相应会输出多个特征;
  • Text Encoder 。采用CLIP 的Text encoder抽取文本特征,其中Transformer结构是12层,512,8个注意力头。
  • Similarity Calculator。用来多帧特征和文本特征相似度,根据模块是否引入新参数进行学习,作者将相似度计算分为三类:无参数方法、序列型和紧凑型,结构分别如上图的下半部分。其中无参数方法直接使用平均池化直接融合视频表示。序列型的视频文本处理采用两个单独的分支。而紧凑型直接用Transformer学多模态交互。

paper:https://arxiv.org/pdf/2104.08860.pdf
code:https://github.com/ArrowLuo/CLIP4Clip

在这里插入图片描述
CLIP2Video
作者motivation来自于想要解决视频-文本的理解,需要同时考虑到两个方面的信息,即1)多模态图像文本训练的空间表示和2)视频帧与视频语言的时间关系 。因此,基于能捕获空间状态的CLIP,本文提出的扩展模型主要通过两个模块来实现:时间差分块(Temporal Difference Block,TDB)和时间对齐块(Temporal Alignment Block,TAB)。

  • 时间差分块。在序列中加入图像帧的差分来模拟运动变化。具体来说,以相邻时间戳之间帧嵌入的变换差来表示,即使用sigmoid和差异的注意力来表示,最后全局拼接得到视频表征。
    在这里插入图片描述

  • 时间对齐块。利用文本上下文和关键帧内容之间的对齐,以增强视频片段和短语之间的相关性。具体实现是使用共享的聚类中心来联合对齐帧和单词嵌入,即计算不同模态特征和共享中心的相关度作为不同cluster中心的权重。

paper:https://arxiv.org/abs/2106.11097
code:https://github.com/CryhanFang/CLIP2Video

在这里插入图片描述
CLIP2TV
结合CLIP和动量蒸馏来做视频文本检索。主要的贡献是在CLIP4CLIP的基础上,在推理阶段引入动量蒸馏。动量蒸馏的引入是为了解决图像文本的弱相关性,即标题不完全覆盖视频,视频片段又不包含文本描述。整体的结构如上图,主干部分和CLIP4CLIP一样,值得注意的点主要有:

  • Contrastive learning。由于帧特征和标题特征都被投影到了多模态共享空间中,作者试图结合余弦相似性和对比性损失,计算标准化帧表示和标准化标题表示之间的余弦相似度。
  • Momentum Distillation。动量蒸馏处理图像文本对之间的弱相关性。

paper:https://arxiv.org/pdf/2111.05610.pdf

猜你喜欢

转载自blog.csdn.net/qq_39388410/article/details/122863121