ICCV 2023 | APE:对CLIP进行特征提纯能够提升Few-shot性能

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【计算机视觉】微信交流群

本文介绍我们在ICCV 2023上接收的论文《Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement》。这篇文章基于CLIP提出了一种特征提纯的方法为下游任务选择合适的特征,以此来提高下游任务的性能并同时提高计算效率。

5aafffcc67f44046671ccfa9a18b30c2.png

论文: https://arxiv.org/pdf/2304.01195

代码: https://github.com/yangyangyang127/APE

相比于其他方法,我们能够在性能和计算量上实现较好的均衡,如下图所示。

203680c5ee2f4feba3aa3a0ac15e5a2e.png

1. 概述

问题:大规模预训练的视觉-文本模型,如CLIP,BLIP等,能够在多种数据分布下表现出良好的性能,并已经有很多的工作通过few-shot的方式将它们应用于下游任务。但这些方法或者性能提升有限(如CoOp, CLIP-Adapter等),或者需要训练大量的参数(如Tip-Adapter等)。因此我们会问,能否同时实现高few-shot性能且少参数量呢?

出发点和思路:CLIP是一个通用的模型,考虑到下游数据分布的差异,对某个下游任务来说,CLIP提取的特征并不全是有用的,可能包含一部分冗余或噪声。因此,在这篇文章中,我们首先提出一种特征提纯的方法,为每个数据集提纯个性化的特征通道,从而减少了参数量,且提升了计算效率;然后设计了一种参数高效的few-shot框架,提升了CLIP在不同数据集上的few-shot性能,下图是论文的整体流程图。

2b3b4cacbdf90fd4a410e7ecfb926e89.png

2. 方法

这一部分中,我们分别介绍特征提纯模块和新提出的few-shot框架。

2.1 特征提纯

CLIP是一个通用的模型,在下游任务上,考虑到数据分布,CLIP提取的特征可能并不全是有用的,因此我们试图为每个下游数据集提纯个性化的特征。我们通过最大化类间差异,或者说最小化类间相似度,来选择合适的特征。对于一个f272871a63a1a5dc0dcbf7811b5b092b.png类的下游任务,我们计算所有类的所有样本表征之间平均相似度ef29a6217e44f85a2e390dbca1f7e74a.png

0a025b324eea78674a1e689116f42485.png

其中,ef9bdb293ef1dd2b7cb11ce5660586ec.png代表类的序号,e769137b78ff93d38c0708ea9cd8c730.png代表两个类的先验概率,896cf5d85545a4f6750b6ccbcb0b0a8a.png代表两个类中的样本数量,fa31ae3ffacffad8c6adaef28ad6c103.png是相似度函数,93fb08d35d4fbe60fac5dbf7e729efe0.png代表表征。假设af952bce46855f5e8806509148b92c8f.png代表特征通道是否被选中,457ed3ce03adcb0df394389c9151f358.png代表特征维度,a551eb220d330bc9bafc069486e4a712.png代表预先限制0eb4af248a155d19ec2099ecc73951b7.png个特征被选中,则通过求解20e2003796ad95d0cbda9dd2cdcfe33b.png使得6f9d47ae29b04f407c874ab7bffa8b6f.png最小我们可以得到需要的特征,即求解以下优化问题:

2c7d7aff50b35859f8b3e65ae40ed9c0.png

其中b3e7e5afa2d44d8be0a0a4916f4d2dd5.png代表逐元素相乘。最后,经过特征提纯,我们在ImageNet上统计了图像和文本相似度的变化,如下图所示。相比于没有特征提纯,我们选定的特征减小了类间相似度,同时增大了图像和文本的匹配程度。且我们提纯出的特征能够获得更好的similarity map。

feeaf767bcb8e99ec001fcffb35e3ea5.png  29973ec4499ac271c30b25b77da234a1.png

2.2 三边关系的few-shot框架

CLIP等视觉文本模型一般基于测试图像和文本表征的相似度或距离来完成分类任。但除此之外,我们还可以使用测试图像和训练图像的相似度来校正,并使用训练图像和文本的相似度来为困难样本提供额外的信息。基于这种考虑,我们探究了测试图像、文本描述和训练图像之间的三边嵌入关系。

假设a8e9313a4f727c8a30537d594a242f67.png代表测试图像特征,5c59b2b82e712d05f519d93e518d73fe.png63e0acf0c3e2699b2b4081a6d6534693.png分别代表训练图像和文本描述的特征,643da9b642c545d971438017b538bbf6.png代表训练图像的label,则我们可以建立三边关系,

43403a4d0862d8feaa29801c2f9a435a.png

其中,06131c9bfd29414e2f7a39b925a819ff.png代表一般的CLIP基于视觉文本相似度的预测,3c9259383b1cb6878e07fda94f88df55.png代表模态间的相似度,即测试图像和训练图像之间的相似度,1274558d4fb79a3272bc869450f8f5a9.png反映了训练图像对测试图像的贡献。基于以上三种关系,可以得到最终的预测为

23cac77b543f43db658ccc9eebdc71cd.png

    我们可以将特征提纯与三边关系结合起来,直接在选择出来的特征上进行三种关系的few-shot学习,这样可以减少参数和计算效率。我们提出了training-free和training-required两种框架,如下图,后者相比于前者增加了少量可训练的残差。

683813ea2e474e88da9e71bcd0d9f14e.png

3. 结果

我们在11个分类数据集上研究了方法的性能,并提出了training-free和training-required两个版本,下图是11个数据集上的平均性能以及和其他方法的比较。

fdce29a8a7f81dd27e46ecf000217d1d.png

与其他方法相比,我们的计算效率和参数量都有所优化。

074bf43343dfe0d61485ae6162fb99fd.png

提纯的特征通道的数量对结果也有所影响:

2ec7092056a462daee5015b72ff571fd.png

感谢您的阅读,更多的实现细节和比较请看我们的文章,我们的代码已开源。感谢您提出宝贵意见。

 
  

点击进入—>【计算机视觉】微信交流群

ICCV / CVPR 2023论文和代码下载

 
  

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集
目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!

▲扫码进星球
▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看4b3ea945b3a76d53b12cfc36f246ca3e.gif

猜你喜欢

转载自blog.csdn.net/amusi1994/article/details/131821053