CVPR (《28篇论文、6 大主题带你一览 CVPR 2020 研究趋势》学习笔记六视觉与语言)

原文链接:https://mp.weixin.qq.com/s/MkEwjHVC9M1JtdzZZdmeFw

视觉与语言

12合1:多任务视觉和语言表示学习

论文地址:https://arxiv.org/abs/1912.02315

基于视觉和语言的方法通常专注于少量孤立研究的独立任务。但是,作者指出,完成这些任务中的每一项都需要具有视觉基础的语言理解技能,这些技能明显重叠。

为此,本文提出了一种大规模、多任务的训练方案,该模型采用单一模型对来自以下四大类任务的12个数据集进行了训练:视觉问题回答、基于字幕的图像检索,基础引用表达式和多模式验证。使用单个模型有助于将参数数量从大约30亿个参数减少到2.7亿个,同时提高跨任务的性能。

该模型基于ViLBERT,其中每个任务都有一个特定任务的head网络,该head络分支出一个公共的共享干线(即ViLBERT模型)。拥有6个任务head,12个数据集以及超过440万个独立的训练实例,这种规模的多任务训练很难控制。为了克服这个问题,首先将所有模型都在同一数据集上进行预训练。然后使用循环批采样从多任务训练开始循环遍历每个任务,并在发现某些过拟合的情况下尽早停止(early stopping)以停下给定任务,并有可能重新开始训练以避免灾难性遗忘。

猜你喜欢

转载自blog.csdn.net/dujuancao11/article/details/107024849
今日推荐