BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Genera

Paper name

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation

Paper Reading Note

URL: https://arxiv.org/abs/2201.12086

TL;DR

ICML 2022 文章，提出了BLIP，一种新的 Vision-Language Pre-training (VLP) 框架，同时提出了一种图像文本对的数据集清洗方法

在这里插入图片描述

提出了BLIP，一种新的 Vision-Language Pre-training (VLP) 框架，它可以灵活地转移到视觉语言理解和生成任务中
- 通过引导 caption 来有效地利用有噪声的网络数据，其中 captioner 生成合成 caption，filter 去除有噪声的 caption
在广泛的视觉语言任务上取得了最先进的结果，例如图像文本检索（平均+2.7%recall@1)、图像字幕（CIDEr中+2.8%）和VQA（VQA得分+1.6%）
本文主要贡献
- Multimodal mixture of Encoder-Decoder (MED)：一种有效的多任务预训练和灵活迁移学习的新模型体系结构。MED 既可以作为单模态编码器，也可以作为基于图像的文本编码器，或基于图像的文字解码器。该模型与三个视觉语言目标联合预训练：图像文本对比学习、图像文本匹配和图像条件语言建模
- Captioning and Filtering (CapFilt)：一种从噪声图像文本对中学习的新数据集增强方法。将预先训练的 MED 微调为两个模块：一个用于生成给定网络图像的合成 caption 的 captioner，以及一个用于从原始网络文本和合成文本中去除噪声 caption 的 filter

在这里插入图片描述

联合优化了三个目标，包括两个基于理解的目标和一个基于生成的目标，每个图像-文本对只需要一次前向通过计算量较大的视觉转换器，三次前向通过文本转换器
- Image-Text Contrastive Loss (ITC)：集成 ALBEF 中的 ITC 损失。通过鼓励正面图像文本对具有相似的表示，负面图像文本相反，对齐视觉变换器和文本变换器的特征空间
- Image-Text Matching Loss (ITM)：旨在学习图像-文本多模态表示，捕捉视觉和语言之间的细粒度对齐。ITM是一个二分类任务，给定其多模态特征，其中模型使用ITM头（线性层）来预测图像文本对是正（匹配）还是负（不匹配）
- Language Modeling Loss (LM)：旨在生成给定图像的文本描述。优化交叉熵损失，该损失训练模型以自回归方式最大化文本的可能性

背景
- 有标注数据集类似 COCO 这样包含图像与文本的数据集较少
- 网络收集的图片文本对一般准确性较差
提出 Captioning and Filtering (CapFilt)，一种提高文本语料库质量的新方法
- 基于两个子模型清洗网络数据集
  - captioner：对给定的网络图片生成 captions，基于 LM 损失训练
  - filter：移除有噪声的图片文本对，基于 ITC and ITM 损失训练；去除原始web文本Tw和合成文本Ts中的噪声文本，如果 ITM 头预测文本与图像不匹配，则认为文本有噪声，移除该文本
  - 以上两个模型基于 MED 初始化，分别在 COCO 上 finetune
将清洗后的网络数据与 COCO 等标注数据合并后用于模型 pretrain

使用 nucleus sampling 来生成合成 caption，nucleus sampling 是一种随机解码方法，其中每个 token 从一组累积概率质量超过阈值 p (p = 0.9) 的 tokens 中采样；与 beam search 方法（旨在以最高概率生成 caption 的确定性解码方法）相比，nucleus sampling 精度更高，原因可能是 nucleus sampling 产生的结果更多变