BLIP模型中的一些术语解读

MED

  

MED是一种用于文本分类的深度学习模型,它的全称为"Multichannel Encoder-Decoder Model"。该模型主要由四个主要组件组成:输入层、编码器、解码器和输出层。

输入层接受文本输入并对其进行预处理。输入层接下来连接到编码器,该编码器使用卷积神经网络(CNN)和长短时记忆网络(LSTM)来捕获输入中的特征。CNN组件可以提取文本的局部特征,而LSTM组件可以捕获序列信息。

编码器将文本表示为一个向量。该向量是平均池化和最大池化得到的多个向量的级联。

解码器将编码后的文本向量转换为类别概率分布。解码器与编码器共享相同的嵌入层参数,以将其编码后的文本向量转换为低维语义空间中的向量,然后通过全连接层将其映射为类别概率分布。

最后,输出层将类别概率分布映射到类别标签,以便最终的分类结果输出。这种多通道编码-解码模型能够捕获文本中的不同语义层次和句子结构特征,从而对文本数据进行准确分类。

 VIT

Vit模型是一种基于注意力机制的视觉感知模型,它可以将图像转换为序列化数据来进行处理。Vit模型的核心思想是将图像分割成块,并将每个图像块作为一个token来处理。每个token包含两部分信息:位置信息和特征信息。通过多层自注意力机制,Vit模型能够聚合所有的token信息,从而得到整张图片的表示,可以用于图像分类和目标检测任务。

具体来说,Vit模型的输入是一个大小为H×W的图像,首先将其分成大小为N的块,然后将每个块进行线性变换,再添加位置编码得到N个token。之后,将这些token送入多层Transformer结构中进行自注意力聚合,在最后一层得到整张图片的表示,最后进行分类或目标检测等任务。

总的来说,Vit模型是一种用于图像处理的序列模型,它将图像切分成块,并使用自注意力机制来聚合块级别的信息,使机器可以感知图像。

Retrieval-FT

 Retrieval-FT 可能指的是 "Retrieval Fine-Tuning",这是一种在自然语言处理中使用的技术,它通过对预先训练好的语言模型进行微调,从而在针对特定任务时提升模型的性能。在这种方法中,预先训练好的模型通常是在大规模文本数据集上进行训练的(例如 BERT,GPT-2 等),而微调过程是在小规模特定任务数据上进行的,这可以帮助模型在处理这些特定任务时提高准确率。Retrieval-FT 在问答系统、摘要生成、文本分类等自然语言处理任务中都得到了广泛的应用。

Retrieval-FT和Caption-FT是在使用Visual Language Models(VLMs)的时候可以使用的两种fine-tuning策略。这些VLMs通常是基于BERT等自然语言处理模型和图像特征提取模型的组合模型。

Retrieval-FT通过对图像和对应文本的embedding进行联合训练,学习到了更好的跨模态(retrieval)语义表示。这个模型可以用于搜索/推荐任务,其中用户提供图片或文本查询,模型返回相匹配的图片/文本。

Caption-FT则更适合用于生成图像描述的任务,其中模型学习如何从图像生成自然语言。其过程类似于给定图像的文本翻译任务,但这里的文本是图像描述而不是句子翻译。

 

Captioner

在图像文本检索任务中,Captioner是一个模型,它可以为输入的图片生成一个相应的文字描述,这个描述通常被称为 "caption"。 Captioner 首先检查输入图像,并在图像中找到重要的特征。然后,根据这些特征,模型生成一个文本描述来描述图像的内容。这个描述可以作为图像的标签,这样可以更容易地对图像进行语义检索,而不是仅仅从文件名或其他元数据中查找关键字。Captioner 是深度学习的模型,它通常使用卷积神经网络 (CNNs) 和长短期记忆网络 (LSTMs)来实现捕获图像的特征并生成描述。

实验结果

这些结果是在进行图像-文本检索任务方面的评估指标。这些指标包括:

- "val_txt_r1": 82.06:表示在验证集(validation set)上,文本查询的top-1精度为82.06%。
- "val_txt_r5": 95.34:表示在验证集上,文本查询的top-5精度为95.34%。
- "val_txt_r10": 97.7:表示在验证集上,文本查询的top-10精度为97.7%。
- "val_txt_r_mean": 91.7:表示在验证集上,文本查询的平均精度为91.7%。
- "val_img_r1": 64.38624550179928:表示在验证集上,图像查询的top-1精度为64.39%。
- "val_img_r5": 86.12554978008797:表示在验证集上,图像查询的top-5精度为86.13%。
- "val_img_r10": 91.99920031987205:表示在验证集上,图像查询的top-10精度为92.00%。
- "val_img_r_mean": 80.83699853391977:表示在验证集上,图像查询的平均精度为80.84%。
- "val_r_mean": 86.26849926695988:表示在验证集上,图像-文本检索任务的平均精度为86.27%。
- "test_txt_r1": 81.92:表示在测试集(test set)上,文本查询的top-1精度为81.92%。
- "test_txt_r5": 95.4:表示在测试集上,文本查询的top-5精度为95.4%。
- "test_txt_r10": 97.8:表示在测试集上,文本查询的top-10精度为97.8%。
- "test_txt_r_mean": 91.70666666666666:表示在测试集上,文本查询的平均精度为91.71%。
- "test_img_r1": 64.30227908836466:表示在测试集上,图像查询的top-1精度为64.30%。
- "test_img_r5": 85.73370651739305:表示在测试集上,图像查询的top-5精度为85.73%。
- "test_img_r10": 91.50739704118352:表示在测试集上,图像查询的top-10精度为91.51%。
- "test_img_r_mean": 80.51446088231374:表示在测试集上,图像查询的平均精度为80.51%。
- "test_r_mean": 86.1105637744902:表示在测试集上,图像-文本检索任务的平均精度为86.11%。

这些指标是检验图像和文本检索模型效果的重要标准。其中,top-k表示模型返回的结果中,有k个是正确的;r_mean表示文本与图像的平均检索精度。

猜你喜欢

转载自blog.csdn.net/qq_40905284/article/details/130741861