CLIP扩展

在已有的image、text 的基础上又加上了audio语音模态。

找了一些视频，有视频帧（图像）、文本、语音三种模态的信息，仿照CLIP的模型结构。三种模态两两配对（对角线为正样本对）。最后将三个损失函数相加来更新模型参数。最后可以zero-shot 的做语音分类任务。

3D的数据集较小，难以学到很好的表征。如何把CLIP学到的非常好的2D的表征迁移到3D领域？关键就在于找一个2D和3D的“桥梁”。

作者将3D点图以不同角度投影到2D深度图上，前边CLIPpasso讲过，由于CLIP模型在特别大的数据集上预训练，因此对各种风格的RGB图像都能提取很好的特征，这里的2D深度图也不例外。

CLIP对物体非常敏感，例如篮球、足球、飞机，CLIP模型是一定可以提取很好的特征，不论是分割还是检测任务都能做的很好。但是对于一些抽象的概念，CLIP模型的表现可能就差强人意。因为对比学习的方式可能确实不适合学一个概念。

与其把深度估计看成一个回归问题，不如将其看成一个分类问题。强制性的把深度距离（抽象概念）分成几个大类（giant 、close、…、 far、unseen七个类）。

CLIP模型改动的三点

1.改动最小，目前的图像和文本经过CLIP的预训练模型（CLIP预训练数据集比较大，直接使用预训练的参数非常好），得到一个特别好的特征。然后用这个特征做一下点乘或拼接（融合），之前的模型不动，用一个更好的特征加强之前模型的训练。

2.知识蒸馏，将CLIP模型作为teacher网络，生成伪标签。帮助现有的模型收敛更快。

3.不借鉴CLIP的预训练参数，而是借用CLIP这种多模态的对比学习思想（图像文本对，对角线GT）。然后用在自己的任务中，定义自己的正负样本对，然后去算多模态对比学习loss。

python的学习还是要多以练习为主，想要练习python的同学，推荐可以去看，他们现在的IT题库内容很丰富，属于国内做的很好的了，而且是课程+刷题+面经+求职+讨论区分享，一站式求职学习网站，最最最重要的里面的资源全部免费。

他们这个python的练习题，知识点编排详细，题目安排合理，题目表述以指导的形式进行。整个题单覆盖了Python入门的全部知识点以及全部语法，通过知识点分类逐层递进，从Hello World开始到最后的实践任务，都会非常详细地指导你应该使用什么函数，应该怎么输入输出。

牛客网（牛客网 - 找工作神器|笔试题库|面试经验|实习招聘内推，求职就业一站解决_牛客网）还提供题解专区和讨论区会有大神提供题解思路，对新手玩家及其友好，有不清楚的语法，不理解的地方，看看别人的思路，别人的代码，也许就能豁然开朗。

快点击下方链接学起来吧！

参考：