ImageBind: One Embedding Space To Bind Them All

  • meta AI
  • 2023.5.9

abstract

  • 问题:当人类接触世界的时候,视觉,听觉,嗅觉,触觉等多个感官都在接收信息。而当前的多模态任务,实际上是两个模态之间的交互,比如image-text pair,speech-text pair,image-audio pair,实际上并没有实现视觉-图像-文本三个模态的打通。主要难点在于,如果想要在同一空间建立多个模态的映射,就需要对于一张图片多个模态的描述信息,而这样的数据集是不存在。
  • idea:将各个模态和图像进行对齐,以获得多模态对齐的信息,从而实现在一个joint embedding space内六个模态(images, text, audio, depth–3D, thermal-热力学, and IMU data-运动参数)的映射。该模型的初始化模型可以是CLIP这种在image-text上已经较好建模的模型继续训练,得到跨模态场景开箱即用的体验(zero-shot classification and retrieval performance),也可以通过较少的数据finetune用于其他模态场景。

method

在这里插入图片描述

  • 将图片作为对齐的中间态,可以获得很多<image, text>, <image, thermal>,<audio, image>的数据。如上图所示,各种模态映射到一个空间,从而可以建模一些unpaired data;
  • ( I , M ) (I,M) (I,M)是构造的pair data,其中 I I I是image, M M M是其他任意模态,经过不同的encoder–f/g, q i = f ( I i ) q_i=f(I_i) qi=f(Ii) k i = g ( M i ) k_i=g(M_i) ki=g(Mi),使用对比学习InfoNCE loss进行优化;实践中,使用对称loss, L I , M + L M , I L_{I,M}+L_{M,I} LI,M+LM,I;
  • 训练中发现,在进行 ( I , M 1 ) (I, M_1) (I,M1) ( I , M 2 ) (I, M_2) (I,M2)的对齐学习时, ( M 1 , M 2 ) (M_1,M_2) (M1,M2)之间也存在对齐,说明ImageBind可以做zero-shot 的跨模态检索任务。实验结果表明,不需要audio-text数据,使用text prompt,可以达到SOTA的text-audio classification results。
  • 模型结构:image/text/audio/thermal image/depth image/IMU 是各自单独的encoder,image和video共享一个encoder;每个模态都是encoder+linear+norm,最后的linear处理到指定维度便于计算infoNCE,norm有助于模型收敛,而且可以使用预训练的模型(iamge/text encoder来自于CLIP)。当处理image/text以外模态数据的时候,这两个encoder freeze parameter,对应模态的encoder参数更新。
  • 每个模态数据处理的方法见下
    在这里插入图片描述
    在这里插入图片描述

experiment

在这里插入图片描述

下游任务表现

  • zero-shot:
    • 只有image-text pair的数据,但是在text prompt提示下,其他模态的分类任务上也有相当甚至超过specific task的表现;(表2)
    • 没有audio-text的训练数据,音频分类&音频检索任务都表现不错(表3&表4)
  • few-shot:训练linear classifiers,基于audio分类任务,比自监督AudioMAE好,和监督AudioMAE相当;基于depth分类,比MultiMAE好(图3)
  • 扩展任务:
    • 两种模态的embedding作为prompt,可以检索到两个音素都有的图片(图4)
    • 使用text prompt做检测,替换为audio embed作为prompt,也可以实现(图5)

在这里插入图片描述

  • 还做了一些结构对比以及scaling对于性能的消融实验。具体可以看论文。

猜你喜欢

转载自blog.csdn.net/qq_40168949/article/details/130600110
今日推荐