GLIP_V1/V2(Ground Language-Image Pre-train)CVPR2022

vision grounding任务:给你一句话,你去把这句话里的物体在当前图片中定位出来。就类似一个目标检测任务。

CLIP是一个图像文本配对任务。

将两个任务结合起来,再加入伪标签(self training),这样模型就可以在没有标注过的图像文本对上生成bbox标签。从而扩张整个训练数据集的数量。

图像先经过图像编码器得到目标/区域特征O,然后经过一个分类头,也就是乘权重矩阵W得到输出类别的logits Scls,然后计算Scls与真实类别的交叉熵损失。

grounding模型中,作者计算了匹配分数,看图像中的区域怎么与句子中的单词匹配上(点乘相似度)。

图像和句子分别经过各自的编码器得到各自的特征image embedding和text embedd,然后计算匹配度,其实就是ViLD中的ViLD-text分支。

经过理论验证,vision grounding与检测这两个任务是可以统一起来的,然后又经过实验,在COCO上的分数也是完全匹配的。GLIP是完全可以迁移到任何一个目标检测的数据集上得。接下来就是看如何扩大数据集,如何将预训练模型训练的更好。

图像过图像编码器得到image embedding,文本过文本编码器得到text embedding。

Deep Fusion:当文本特征和图像特征被抽取之后,理论上可以直接计算相似度矩阵。但是直接算的话,图像文本的joint embedding space(结合后的特征空间)还没有学的很好(Lseg通过conv继续学习)。多加一些层数融合一下,相似的概念拉近一些,关联性更强,最后算相似度也更有针对性。具体就是用cross attention交互了一下。

目标函数,有监督的方式,时时刻刻都有bbox,抽取出的目标/区域特征模型是知道和哪个单词对应的。算完点乘后可以去算Alignment loss(匹配损失)。这样就完成了文本和图像特征的融合,接下来就可以做zero-shot。对于定位location-loss来说,算一个最基本的L1-loss就可以了。

作者展示了两个非常难的任务,一是检测两个针管和一瓶疫苗。现有的数据集中似乎没有针管和疫苗这种类别。但是GLIP自己做出来对文本的理解,给出了疫苗和针管的检测结果。下边这个例子是一张图片的描述,都是一些比较抽象的概念,但是GLIP也能做得很好。

最新的很多工作DyHead和SoftTeacher没有zero-shot能力,但是经过微调后在COCO数据集上能够达到60左右的AP。GLIP-L具有zero-shot 的能力,能够达到将近50的AP,而且微调后也能达到60多一点的AP。整体来看效果还是不错的。

python的学习还是要多以练习为主,想要练习python的同学,推荐可以去看,他们现在的IT题库内容很丰富,属于国内做的很好的了,而且是课程+刷题+面经+求职+讨论区分享,一站式求职学习网站,最最最重要的里面的资源全部免费。

牛客网 - 找工作神器|笔试题库|面试经验|实习招聘内推,求职就业一站解决_牛客网求职之前,先上牛客,就业找工作一站解决。互联网IT技术/产品/运营/硬件/汽车机械制造/金融/财务管理/审计/银行/市场营销/地产/快消/管培生等等专业技能学习/备考/求职神器,在线进行企业校招实习笔试面试真题模拟考试练习,全面提升求职竞争力,找到好工作,拿到好offer。icon-default.png?t=M85Bhttps://www.nowcoder.com/link/pc_csdncpt_ssdxjg_python

他们这个python的练习题,知识点编排详细,题目安排合理,题目表述以指导的形式进行。整个题单覆盖了Python入门的全部知识点以及全部语法,通过知识点分类逐层递进,从Hello World开始到最后的实践任务,都会非常详细地指导你应该使用什么函数,应该怎么输入输出。

牛客网(牛客网 - 找工作神器|笔试题库|面试经验|实习招聘内推,求职就业一站解决_牛客网)还提供题解专区和讨论区会有大神提供题解思路,对新手玩家及其友好,有不清楚的语法,不理解的地方,看看别人的思路,别人的代码,也许就能豁然开朗。

快点击下方链接学起来吧!

牛客网 - 找工作神器|笔试题库|面试经验|实习招聘内推,求职就业一站解决_牛客网

参考:

参考:CLIP 改进工作串讲(上)【论文精读】_哔哩哔哩_bilibili

论文下载:http://arxiv.org/abs/2112.03857

猜你喜欢

转载自blog.csdn.net/weixin_45104951/article/details/127079268