abstract

问题：当人类接触世界的时候，视觉，听觉，嗅觉，触觉等多个感官都在接收信息。而当前的多模态任务，实际上是两个模态之间的交互，比如image-text pair，speech-text pair，image-audio pair，实际上并没有实现视觉-图像-文本三个模态的打通。主要难点在于，如果想要在同一空间建立多个模态的映射，就需要对于一张图片多个模态的描述信息，而这样的数据集是不存在。
idea：将各个模态和图像进行对齐，以获得多模态对齐的信息，从而实现在一个joint embedding space内六个模态（images, text, audio, depth–3D, thermal-热力学, and IMU data-运动参数）的映射。该模型的初始化模型可以是CLIP这种在image-text上已经较好建模的模型继续训练，得到跨模态场景开箱即用的体验（zero-shot classification and retrieval performance），也可以通过较少的数据finetune用于其他模态场景。

method

在这里插入图片描述

将图片作为对齐的中间态，可以获得很多<image, text>， <image, thermal>，<audio, image>的数据。如上图所示，各种模态映射到一个空间，从而可以建模一些unpaired data；
$(I, M)$ 是构造的pair data，其中 $I$ 是image， $M$ 是其他任意模态，经过不同的encoder–f/g， $q_i=f(I_i)$ ， $k_i=g(M_i)$ ，使用对比学习InfoNCE loss进行优化；实践中，使用对称loss， $L_{I,M}+L_{M,I}$ ;
训练中发现，在进行 $I, M_1)$ 和 $I, M_2)$ 的对齐学习时， $M_1,M_2)$ 之间也存在对齐，说明ImageBind可以做zero-shot 的跨模态检索任务。实验结果表明，不需要audio-text数据，使用text prompt，可以达到SOTA的text-audio classification results。
模型结构：image/text/audio/thermal image/depth image/IMU 是各自单独的encoder，image和video共享一个encoder；每个模态都是encoder+linear+norm，最后的linear处理到指定维度便于计算infoNCE，norm有助于模型收敛，而且可以使用预训练的模型（iamge/text encoder来自于CLIP）。当处理image/text以外模态数据的时候，这两个encoder freeze parameter，对应模态的encoder参数更新。
每个模态数据处理的方法见下

在这里插入图片描述

zero-shot：
- 只有image-text pair的数据，但是在text prompt提示下，其他模态的分类任务上也有相当甚至超过specific task的表现；（表2）
- 没有audio-text的训练数据，音频分类&音频检索任务都表现不错（表3&表4）
few-shot：训练linear classifiers，基于audio分类任务，比自监督AudioMAE好，和监督AudioMAE相当；基于depth分类，比MultiMAE好（图3）
扩展任务：
- 两种模态的embedding作为prompt，可以检索到两个音素都有的图片（图4）
- 使用text prompt做检测，替换为audio embed作为prompt，也可以实现（图5）

在这里插入图片描述