CLIP & CLAP

CLIP

abstract

  • 原有的基于有监督数据训练的计算机分类任务,在面对新的分类目标时泛化性和可用性都会变差;

  • 本文提出使用海量网络图文匹配的数据(400 millon),做预训练模型。和NLP中的GPT模型效果类似,实现可以zero-shot的迁移到很多图像任务——在30多个图像数据集(比如OCR,视频动作识别以及细分的图像分类任务),都表现良好。比如对于ResNet-50 on ImageNet的分类任务,不需要训练数据达到精确度相当的结果。

  • CLIP, Contrastive Language-Image Pre-training

intro

  • 受益于NLP大模型预训练的思路启发,是否能够利用海量的网络数据预训练模型,实现任务目标无关(task-agnoistic)的学习,从而更加适用于多样的下游任务。
  • 之前的工作有做过描述图像内容的各种方法尝试,但是效果差于经典的方法。分析了之前的工作是在有限的标签数据以及海量的无限制文本两种方式学习的折衷。

Approach

在这里插入图片描述

  • 从自然语言中学习的好处是:(1)可以从海量的互联网数据中学习;(2)不是传统的N类标签,从自然语言中学到一些通用的范式,而且这些范式是和自然语言结合的,从而更容易扩展到zero-shot的场景中。

Creating a Sufficiently Large Dataset

  • 现有的图像数据集YFCC100M,筛选出有文本描述的,大约15 million
  • 网上通过query获取,类间数量大致均衡,500,000 queries * 20000 per class,一共大约100亿 (image text)对,将此数据集命名为WIT(WebImageText)

Selecting an Efficient Pre-Training Method

在这里插入图片描述

  • 训练效率是使用/扩充自然语言监督方法的关键。相比于预测特定的单词或者生成图像的标题,如图橙线到绿线,在生成同样性能的图像embedding任务上,将预测目标替换成==对比学习目标,可以显著提升学习效率。==本文首次将对比学习引入到图文领域。过程的伪代码如下。
    在这里插入图片描述

  • 对原有的text encoder/image encoder 的最后一层删除,使用linear projection投影到共同的多模态空间。softmax中设置温度参数 t t t

  • image encoder使用了两种:(1)ResNet-50的改进版本,具体改动了哪里论文里有写;(2)ViT,基本按照原始框架实现。

  • text encoder:transformer-based, a 63M-parameter 12- layer 512-wide model with 8 attention heads.

  • 实验中发现需要扩大image encoder的尺寸,但是模型对text encoder的尺寸不是很敏感。

experiment

  • 几个不同配置的image encoder模型(不同的大小),有一些大模型训练的技巧,论文提到一些。mini batch=32,768,非常大
  • 最大的RN50x64模型(image encoder)花费 18 days to train on 592 V100 GPUs;最大的ViT模型,花费 12 days on 256 V100 GPUs

Zero-Shot Transfer

CLAP: LEARNING AUDIO CONCEPTS FROM NATURAL LANGUAGE SUPERVISION

  • 2022.6
  • microsoft
  • code

abstract

  • Contrastive Language-Audio Pretraining (CLAP):文本和audio使用两个单独的encoder,使用对比学习的训练策略,定义到同一个多模态的空间表征embedding,
  • 128k的text-audio pair用于训练,每条audio被处理成5s的数据(~127h),然后在16个下游任务中进行zero-shot以及finetune的对比

method

在这里插入图片描述

  • 输入audio,text<1xL>

  • 经过audio-encoder,将音频时间维度压缩,变成 X a X_a Xa:,N是batch size;text encoder编码后输出 X t X_t Xt
    在这里插入图片描述

  • 分别经过线性变换,变成 E a E_a Ea E t E_t Et
    在这里插入图片描述

  • 计算相似度矩阵
    在这里插入图片描述
    在这里插入图片描述

experiment

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_40168949/article/details/129160628