SIMVLM:简单视觉语言模型,SIMPLE VISUAL LANGUAGE MODEL PRETRAINING WITH WEAK SUPERVISION

SIMVLM: SIMPLE VISUAL LANGUAGE MODEL PRETRAINING WITH WEAK SUPERVISION

论文地址:

https://arxiv.org/abs/2108.10904

主要工作:

随着视觉和文本表示联合建模的最新进展,视觉-语言预训练(VLP)在许多多模态下游任务上取得了令人印象深刻的性能。然而,对昂贵的注释的要求,包括干净的图像标题和区域标签,限制了现有方法的可伸缩性,并随着引入多个特定于数据集的目标,使预训练过程变得复杂。在这项工作中,作者放松了这些约束,并提出了一个极简的预训练框架,名为简单视觉语言模型(SimVLM)。

SimVLM通过利用大规模的弱监督,降低了训练的复杂性,并使用单一的前缀语言建模(PrefixLM)目标进行端到端训练。在没有使用额外的数据或特定任

猜你喜欢

转载自blog.csdn.net/weixin_44936889/article/details/120789833