【多模态】1、几种多模态 vision-language 任务和数据集介绍

现在多模态任务越来越火，但之前没接触过的朋友们可能一脸懵，这些专有名词到底是什么意思？这任务到底要干一件什么事情？很茫然，我也是多模态小白，所以在做多模态之前，让我们一起先整明白这些任务到底在干什么。

一、Phrase Grounding

这个很难直接翻译，直译的话就是 “短语接地”，所以到底指的是啥？

其实最好不要直接翻译，要从任务中理解，这个任务就指的是给定一个文本输入，如 “一个穿绿衣服的人”，从图像中找到这个文本描述指向的目标并框出来

所以，phrase grounding 就是将自然语言中提到的有效目标和图像中特定区域对应起来的任务，注意是全部提到的目标，如下图所示

在这里插入图片描述

现在也有方法将目标检测构建成了 phrase grounding 任务了（GLIP），将 prompt 改成如下格式即可：

在这里插入图片描述

1、Flickr30k Entities

标注文件在 github 链接中下载！！！

主要是用于图像描述的一个数据集，region-to-phrase 形式的对应，
包含 31783 张 image
每张图会对应 5 个不同的 caption，共 158915 个英文 caption
还包含 275775 个 phrase-box 标注。对于每个 phrase 还细分为 people, clothing, body parts, animals, vehicles, instruments, scene, othera八个不同的类别，如下图所示

在这里插入图片描述