VALSE 2023 | 左旺孟教授：预训练模型和语言增强的零样本视觉学习

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【目标检测和Transformer】交流群

作者：煎饼果子不要果子 | 源：知乎（已授权转载）

https://zhuanlan.zhihu.com/p/636548901

零样本学习，最经典的模型——CLIP

在一些非自然图像中要比传统模型表现更好

CoOp 增加一些 prompt 会让模型能力进一步提升

怎么让能力更好？可以引入其他知识，即其他的预训练模型，包括大语言模型、多模态模型

也包括 Stable Diffusion 多模态预训练模型

考虑多标签图像分类任务——每幅图像大于一个类别

如果已有图文对齐模型——能否用文本特征代替图像特征

训练的时候使用文本组成的句子

对齐总会有 gap，选 loss 的时候使用 rank loss，对模态 gap 更稳定

拿到文本后有几种选择，比如 Coco 只要其中的 caption 不要图像，或是 Google 搜句子，抑或是语言模型生成

最后选择第一种，因为稳定性和效果更好，能够保证同样数据集（同分布？）

可以建一个同义词表

两种 prompt，global 关注句子里有没有猫，local 关心这个词是不是跟猫有关系

测试的时候就将句子变成图像，global 不变，local 变成了跟图像里的 token 做比较

如果再加上少量文本（大量句子和少量文本）性能会进一步提升

一些相关工作，提完文本特征加一些噪声提高鲁棒性，消解图文 gap

3d 样本较难，因为点云-文本对较少，很难获取

投影后的 3d 点云可以被视作 2d 图像处理，使用图像 encoder

但投影点云依然与图像存在 gap，于是采取另一种思路

投影的确与图像相关，但依然有调整空间，所以转换成某个方向的图像和该方向点云的投影图像做匹配

投影和图像对齐，图像和文本对齐，因此就可以实现零样本学习

如果有一些少量的有标签监督，相当于 few-shot，效果也相当好

全监督效果也很好

当时觉得图像可以做中介，那么红外、热成像等其他模态都可以

ImageBind 以图像为中介将六种模态对齐到一起，重新训练

但大家依然可以做自己领域相关的方向，以图像作为中介对比，还有很大的空间

用想象的方式开展学习

假设有一些类别，使用语言模型生成一些句子，再根据句子使用生成模型生成图像

因此有了图像和类别匹配对（弱监督目标检测）

希望即使使用合成图像，模型在真实图像上也可以比较好

因为类别本身和图像会比较简单，但如果使用语言模型，比如猫变成趴着的猫，这样图像多样性会很高

考虑 SAM 和 Stable diffusion 特定完成分割任务

通过 SAM 得到的 proposal 提取特征

点击进入—>【目标检测和Transformer】交流群

最新CVPR 2023论文和代码下载

后台回复：CVPR2023，即可下载CVPR 2023论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立
扫描下方二维码，或者添加微信：CVer333，即可添加CVer小助手微信，便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注：研究方向+地点+学校/公司+昵称（如目标检测或者ransformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer333，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉，已汇集数千人！

▲扫码进星球
▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看

VALSE 2023 | 左旺孟教授：预训练模型和语言增强的零样本视觉学习

猜你喜欢