[UNIMO]-跨模态论文阅读笔记

论文:https://arxiv.org/pdf/2012.15409.pdf

code:Research/NLP/UNIMO at master · PaddlePaddle/Research · GitHub

背景

motivation:人类大脑能够处理文本、图像、语音等各种模态的信息,并通过模态间的交互增强提升对世界的认知能力。现存预训练方法只能处理单模或多模任务中的一种,同时也只能利用单模data(text or image)或有限的多模data(image-text pairs)。

advantages:

  1. 能用一个模型同时处理单模和多模任务,可同时利用单模data和多模data进行预训练。
  2. 提出的跨模态对比学习能够利用多模data更好地将文本与视觉信息对齐到统一的语义空间,而单模数据使得模型学到更泛化性的表示。

UNIMO预训练模型

UNIMO模型示意

主要思想:采用多层Transformer结构学习text和vision数据的语义表示,模型统一地学习多模与单模数据,能够促进不同模态的信息在相同的语义空间里相互促进学习。

模型处理:

  • 文本端:通过BPE得到输入文本的分词序列,再利用self-attention机制得到文本的上下文表示
  • 图像端:通过Faster R-CNN获取图像的显著性特征序列,[IMG]作为整幅图片的表示,然后同样利用self-attention机制得到图像的上下文表示
  • 多模态端:对文本特征和图像特征进行拼接作为模型输入获得多模态的语义表示特征,最后抽取为图像表示、为文本语义表示。

UNIMO模型预训练方法

挑战:如何更好地将不同levels的多模的表示进行对齐和统一。(例如上图,模型不仅需要联系该场景下的图片和描述文本,而且需要去对齐两个单模数据中两个男生的描述及其位置关系)

现存预训练方法:采用image-text matching分类任务对齐图像和文本表示。对于一组image-text pair数据,从训练集中随机取样image或text进行新的组合,然后用分类器进行判断是否匹配。(认为取样得到的image或text与原本数据的差异性过大,只能学到较为粗糙的对齐关系,训练过程中也加了同个batch中的其他数据作为negative样本)

跨模态对比学习方法(CMCL)

让image-text pair的表示尽可能的近,非成对数据的表示尽可能的远,基于此提出Text Rewriting机制和Image/Text Retrieval方法。

  • Text Rewriting:在不同levels上重写image的caption,增强图像和文本的表示在多个细粒度上的语义对齐,leves包含sentence-level、phrase-level和word-level。(可以得到不同levels大量的hard负样本进行模型的对齐训练)
    1. sentence-level:基于后翻译方法得到image-text pair的positive文本数据,基于TF-IDF相似度方法检索text单模数据得到与原caption十分相似但是不能正确描述原image的hard negtive文本数据。
    2. phrase-level和word-level:将caption文本解析成场景图,用不同的object随机替换图中的属性或关系节点,得到negative文本数据
  • Image/Text Retrieval:利用单模数据,进一步增强image-text pair的特征学习。(检索得到的单模数据是单独encode,然后将其表示抽取进行CMCL的loss计算)
    • Image Retrieval:采用Faster-RCNN检测图像region类别生成TF-IDF特征计算cos,抽取image单模数据中与原图像具有高视觉相似度的图像,相似度由图像之间重叠的objects定义,得到positive集合
    • Text Retrieval:采用BERT计算语义相似性,抽取text单模数据中与caption具有高度语义相似度的文本,得到positive集合

对比学习loss目标:使得pos最大化,neg最小化。

Visual Learning

按照15%的概率对图像的region进行mask,为了防止信息泄露(因为图像中存在高重叠率现象),先选取region为anchor,并随机mask与anchor重叠率高于0.3的region区域,继而训练模型重建图像特征。训练的主要目标:对于单模image数据(对于image-text pair数据),具体可细分为以下两个任务。 

  1. feature regression objective:采用均方误差计算经过上下文表示的特征与原始vi特征的误差,其中r为FC层用于转化特征维度,让学习到的特征尽量接近被掩盖的原始特征。(M应该是隶属于maks区域的)
  2. region classification objective:基于上下文图像特征识别每个masked region的类别,。其中是Faster R-CNN的识别输出类。

Language Learning

采用两种语言建模任务训练模型,bidirectional prediction 和 sequence-to-sequence generation。

  1. bidirectional prediction:对于输入的句子,以几何分布随机取样15%比例的span word进行mask,最小化负对数似然函数训练。
  2. sequence-to-sequence generation:对输入的句子多次迭代,每次迭代由均匀分布得到取样长度从原文中进行样本片段抽取,最终得到(其中wi为每次迭代抽取的样本片段)作为生成任务的目标序列T,移除抽取样本片段后的原文作为生成任务的输入S,进行模型训练。

实验结果

多模任务评估

Flickr30k-IR/TR:image-text retrieval

SNLI-VE:visual entailment

VQA:visual question answering 

CoCo Caption:image caption

单模任务评估

 SST-2:sentiment classification

MNLI:natural language inference

CoLA:linguistic acceptability analysis 

STS-B:semantic similarity analysis

CoQA:conversational question answering

SQuAD-QG:question generation on the SQuAD 1.1

CNNDM:abstractive summarization on the CNN/DailyMail

消融实验

 验证了模型统一学习多模与单模数据,能够促进不同模态的信息在相同的语义空间里相互促进学习。

猜你喜欢

转载自blog.csdn.net/yangyanbao8389/article/details/122553633