【提示学习论文五】Conditional Prompt Learning for Vision-Language Models论文原理及复现工作 - 代码天地

【提示学习论文五】Conditional Prompt Learning for Vision-Language Models论文原理及复现工作

企业开发 2024-01-08 18:51:39 阅读次数: 0

Conditional Prompt Learning for Vision-Language Models 视觉语言模型的条件提示学习

文章介绍

这篇文章于2022年发表在CVPR（Conference on Computer Vision and Pattern Recognition），作者是kaiyang.zhou, jingkang001, ccloy, ziwei.liu。
研究发现CoOp的问题：泛化性差，CoOp在训练时对于已知类别（base classes）过拟合，学习的上下文向量不能推广到同一数据集中的未知类。
作者提出Conditional Context Optimization（CoCoOp）。CoCoOp在CoOp基础上引入一个轻量级的神经网络为每张图像生成 input-conditional tokens（vectors），这些tokens会加到原本CoOp的learnable vectors上，从而可以学习到更泛化的prompt。

问题背景

在这里插入图片描述

CoOp是一种有效利用数据的方法，只需少量标记图像数据即可训练上下文向量，以提高模型性能。
然而，CoOp存在一个问题，其学到的上下文信息无法推广到同一数据集中更广泛的未知类别，CoOp在训练中过于专注于特定类别，导致模型无法很好地泛化到其他类别上。
作者认为，通过实例条件化上下文，可以更好地泛化，因为这使得模型不再专注于特定一组类别，而是关注于每个输入实例及整个任务。
为了解决这个问题，提出了CoCoOp方法。

设计

简单实现方法: 构建 $M$ 个神经网络来生成 $M$ 个上下文标记，但这会增加计算资源的需求。
参数效率设计: 作者提出了更高效的设计方案，该方案在M个上下文向量的基础上进一步学习一个轻量级的神经网络（Meta-Net）。这个Meta-Net用于为每个输入图像生成一个条件化的标记，并将其与上下文向量结合。

模型结构

在这里插入图片描述

CoOp
CoCoOp：由两个可学习的组件组成，一组上下文向量和一个轻量级神经网络（Meta-Net），为每个图像生成一个输入条件token
输入图像编码器生成的图像 $\mathbf{x}$ 特征，通过 Meta-Net 生成相应的条件标记 $\mathbf{t}_y (\mathbf{x})$
计算输入图像 $\mathbf{x}$ 与每个类别提示 $\mathbf{t}_i (\mathbf{x})$ 之间的相似度
对于每个类别 $i$ ，将相似度值作为指数项应用于指数函数，同时用温度参数 $\tau$ 进行缩放，将相似度映射为概率得分
将所有类别的指数项相加并归一化，得到每个类别的归一化概率分布
最终的预测概率表示为给定输入图像 $\mathbf{x}$ 下属于每个类别的可能性。

实现细节

$\mathbf{x}) = \frac{\exp (\operatorname{sim} (\mathbf{x}, g(\mathbf{t}_y (\mathbf{x}))) / \tau )}{\sum_{i=1}^K \exp (\operatorname{sim} (\mathbf{x}, g(\mathbf{t}_i (\mathbf{x})) / \tau )}$

计算预测概率的公式，涉及了上下文标记和模型的预测函数。
评估模型对给定输入图像的类别预测概率。
训练过程中，更新了上下文向量 ${v_m}$ 和 Meta-Net 的参数 $θ$ 。
Meta-Net 结构: Meta-Net采用了一个两层的瓶颈结构，隐藏层将输入维度降低了16倍。

参数

$\mathbf{x})$ ：表示在给定输入图像 $\mathbf{x}$ 的情况下，模型预测为类别 $y$ 的概率。
$\mathbf{t}_y (\mathbf{x})$ ：表示输入图像 $\mathbf{x}$ 对应类别 $y$ 的提示（即条件化的标记），包括了关于这个图像的特定信息。
$\operatorname{sim} (\mathbf{x}, g(\mathbf{t}_i (\mathbf{x})))$ ：表示图像 $\mathbf{x}$ 与类别 $i$ 的提示 $\mathbf{t}_i (\mathbf{x})$ 之间的相似度。这个相似度函数可以是任何测量图像与提示之间相似程度的函数。
$K$ ：表示类别的总数。
$\tau$ ：表示温度参数，用于调整预测分布的平滑度。

猜你喜欢

转载自blog.csdn.net/weixin_51293984/article/details/135348874

【提示学习论文五】Conditional Prompt Learning for Vision-Language Models论文原理及复现工作

Learning to Prompt for Vision-Language Models

【微调视觉-语言模型】Learning to Prompt for Vision-Language Models

跨模态检索论文阅读：(PTP)Position-guided Text Prompt for Vision-Language Pre-training

《Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language Representation Learning》—论文笔记

【论文笔记】BEIT 3 ——Image as a Foreign Language: BEIT Pretraining forAll Vision and Vision-Language Tasks

【论文笔记】BLIP: Bootstrapping Language-Image Pre-training forUnified Vision-Language Understanding and

【论文笔记】VLMO: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts

【ICLR 2023】Diffusion Models扩散模型和Prompt Learning提示学习：prompt-to-prompt

论文笔记：COOKIE: Contrastive Cross-Modal Knowledge Sharing Pre-training for Vision-Language Representati

论文笔记：Multilingual Multimodal Pre-training for Zero-Shot Cross-Lingual Transfer of Vision-Language Mo

X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks论文笔记

超越 CLIP 的视觉-语言模型：Scaling Up Visual and Vision-Language Representation Learning

【多模态论文解读】Align before Fuse: Vision and Language Representation Learning with Momentum Distillation

指示学习（Instruct Learning）和提示（Prompt Learning）学习区别

【迁移学习论文六】Learning Semantic Representations for Unsupervised Domain Adaptation论文原理及复现工作

Prompt 学习和微调综述 (Prompt Learning and Tuning)

[mPLUG]: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections多模态特征融合方法泛读

AI新宠：Prompt Learning,用提示学习调教大模型

深度学习论文: Learning Transferable Visual Models From Natural Language Supervision

Prompt Learning 简介

Prompt Learning详解

【人工智能】大模型提示工程的完整介绍 | A Complete Introduction to Prompt Engineering For Large Language Models

【论文&模型讲解】CLIP（Learning Transferable Visual Models From Natural Language Supervision）

CLIP论文翻译、Learning Transferable Visual Models From Natural Language Supervision翻译

【论文视频】Clip：Learning Transferable Visual Models From Natural Language Supervision【多模态，对比学习，迁移学习】

论文解读：从自然语言监督学习可转移视觉模型Learning Transferable Visual Models From Natural Language Supervision

Prompt （提示）

[论文解读]Threat of Adversarial Attacks on Deep Learning in Computer Vision: A Survey

论文：Threat of Adversarial Attacks on Deep Learning in Computer Vision: A Survey翻译工作

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)