UC2：通用跨语言跨模态视觉和语言预训练

摘要
介绍
2. Related Work
3. Cross-Lingual Cross-Modal Pre-training
4. Experiments
- 4.1 实验结果
- - 4.4.1评价多语言检索
  - 4.1.3 消融实验
结论

摘要

视觉和语言预训练在学习视觉和语言之间的多模态表示方面取得了令人瞩目的成功。为了将这种成功推广到非英语语言，我们介绍了 UC2，这是第一个用于跨语言跨模态表示学习的机器翻译增强框架。 为了解决图像数据集多语言字幕的稀缺问题，我们首先通过机器翻译 (MT) 将现有的仅英语数据集与其他语言进行扩充。然后，我们将标准 Masked Language Modeling 和 Image-Text Matching 训练目标扩展到多语言设置，其中通过共享视觉上下文（即使用图像作为枢轴）捕获不同语言之间的对齐。为了促进图像和所有感兴趣语言的联合嵌入空间的学习，我们进一步提出了两个新的预训练任务，即 Masked Region-to-Token Modeling (MRTM) 和 Visual Translation Language Modeling (VTLM) ，利用 MT- 增强的翻译数据。对多语言图像文本检索和多语言视觉问答基准的评估表明，我们提出的框架在各种非英语基准上实现了最新的技术水平，同时在英语任务上保持了与单语预训练模型相当的性能。

介绍

我们看到的世界是一个多模式和多语言的万千世界。虽然随着视觉和语言 (V+L) 预训练的出现 [10, 35, 36, 45, 26] 在多模式研究中取得了巨大的成功，但目前的大多数文献都偏向于英语。虽然英语训练的 V+L 模型可以在每种目标语言上进行微调（假设在下游任务中有足够的语言特定数据），但鉴于无法克服的开发和维护成本，为世界上每种语言（6,900+）维护语言特定模型是不可能的 [23]。自然，“通天塔”策略开始引起社区的兴趣，旨在建立一个可以处理所有语言的巨型模型，著名的例子包括大规模多语言神经机器翻译 [1]、跨语言语言模型 [32]、和多语言多模态表示学习[18, 24]。

跨语言多模态任务的早期工作主要集中在机器翻译 [22, 55, 6, 50, 2] 和图像文本检索 [18, 28, 5, 19, 49]。目标是为视觉和跨语言输入构建一个公共嵌入空间，并从图像中提取视觉概念，并从特征空间中靠近的语言中提取相似语义。
然而，由于大规模训练语料库的稀缺性，这些模型仅在特定于任务的小型数据集上进行验证，因此将这些模型扩展和推广到更多语言并非易事。

最近发布的大规模多模态数据集[41]和多语种语料库（如100种语言的维基百科）是加速V+L预训练[10,36,45,54]和多语种语言建模[12,11,23]快速发展的关键推动力，这使得预训练大规模多语种V+L模型成为可能。M3P[24]是一项开创性的工作，它将训练过程描述为跨模态单语语料库和单模态跨语言语料库之间的交替V+L预训练。它以英语为中心，在图像和不同语言之间搭建桥梁，这肯定会将语言差异引入下游任务，这些任务依赖于图像和非英语语言之间的直接对齐（例如，图像到德语的检索），（说他的好处和原理）如图1（a）所示。
在这里插入图片描述

现有工作 (M3P) 与我们提出的 UC2 之间的拓扑比较。 M3P 结合了两种类型的预训练任务，而跨模态 Transformer 仅适用于图像和英文字幕。我们的 UC2 在图像和所有其他语言上构建了一个跨语言的跨模态 Transformer。

在本文中，我们提出了一个新的预训练框架UC2（通用跨语言跨模态预训练），它主要以图像为中心，以英语为补充，用于多语言多模态表征学习（图1（b））。主要的挑战是，以图像为中心需要成对的图像和对齐的多语言数据（例如，图像英语、图像德语），而现有的V+L数据集只包含图像英语对。为了填补这一空白，我们建议通过机器翻译（MT）用其他语言扩充纯英语数据集，并利用扩充后的数据集进行预培训。据我们所知，这是第一次创建具有多语言图像标题的大规模训练数据集。

除了将两个广泛采用的预训练任务（Masked Language Modeling 和 Image-Text Matching） 扩展到多语言环境之外，我们还提出了两个新的预训练目标，即 Masked Region-to-Token Language Modeling (MRTM) 和视觉翻译语言建模 (VTLM)。 MRTM 通过共享单词标记和区域标签的嵌入空间（即来自对象检测器的对象类预测），鼓励单词和图像区域之间的细粒度对齐。 VTLM 旨在从并行文本语料库和配对图像中联合学习跨语言跨模态映射。 (一粗一细，一个广度一个狭义)大量实验表明，我们提出的 UC2 框架在多语言图像文本检索和视觉问答 (VQA) 等多个主流基准测试（如 Multi30k [16, 15, 4] 和 COCO [9, 51, 34]）上实现了新的技术水平任务

我们的贡献总结如下。
(i) 我们构建了一个多语言 V+L 语料库，并提出了第一个 MT 增强的跨语言跨模态预训练框架 UC2，它以图像和英语语言为中心，用于联合表示学习。
(ii) 我们提出了新的预训练任务，Masked Region-to-Token Language Modeling 和 Visual Translation Language Modeling，这是多语言多模式任务的两个有效学习目标。
(iv) 我们在多种多语言图像文本检索和 VQA 基准测试方面取得了新的技术水平，优于现有方法。

2. Related Work

视觉语言预训练。人们越来越感兴趣为 V+L 任务构建通用的预训练类 BERT [13] 模型。 VilBERT [36] 和 LXMERT [45] 等早期工作提出了一种双流架构，通过两个独立的 Transformer 对视觉和文本输入进行编码，然后通过跨模态 Transformer 融合这两种模态。后来的工作，如 VL-BERT [44]、UnicoderVL[33] 和 UNITER [10] 引入了一种单流架构，该架构使用一个 Transformer 同时对来自两种模式的连接输入进行编码。后来，Unified VLP [54] 适用于理解和生成任务。在使用不同的输入特征 [35, 26] 和多任务学习 [37] 方面提出了进一步的改进。

多模式多语言学习。现有的关于多语言和多模态方面的研究主要集中在两个任务：跨模态检索和多模态机器翻译（MT）。 [38, 7] 通过将不同语言的图像和字幕与英语字幕对齐，引入了一种多模态多语言方法。与以前使用语言作为枢轴点的工作不同，[18] 学习了一个共享嵌入空间，该空间迫使不同语言的表示朝向枢轴图像表示。后来的工作重点是通过基于字符的词嵌入 [49] 或共享语言声学嵌入 [28] 扩展到更多语言。 SMALR [5] 提出了一种可扩展的多语言模型来学习视觉对齐的词嵌入，以更好地平衡多语言容量和任务性能。

Multimodal MT 利用视觉信息来改进语言翻译。早期的工作通过关注视觉上下文 [8, 21]，或融合 [6]，或多任务学习 [17, 55]，将视觉引入基于 LSTM 的神经 MT 模型。最近，提出了基于Transformer 的 [46] 模型 [2, 50]。人们对无监督多模式 MT [25, 43] 的兴趣也越来越大，其中单语语料库之间的翻译通过在图像上进行旋转来增强。

虽然在单个任务中取得了成功，但这些模型通常是在少量数据上训练的，这限制了它对其他任务或语言的扩展。为了学习跨视觉和多语言文本的与任务无关的通用表示，M3P[23] 引入了第一个预训练框架，该框架交替优化多模态单语言语料库和单模态多语言语料库上的模型。虽然与特定任务的方法相比，M3P 实现了更好的性能，但视觉和非英语语言之间的一致性很难捕捉，因为该模型是通过使用英语作为锚点来学习的。为了加强视觉和所有语言之间的一致性，我们建议预先训练一个统一的架构，其中不同语言的句子基于共享的视觉上下文。

3. Cross-Lingual Cross-Modal Pre-training

在本节中，我们首先介绍我们的机器翻译增强数据集，它支持大规模跨语言预训练。然后，我们回顾了提议的UC2模型，以及我们为跨视觉和语言的普遍表征学习设计的培训前目标。

3.1. Machine Translation Augmented Dataset

我们的多语言图像-文本配对数据是通过使用一组机器翻译的其他语言 L = {l1, l2, . . . , ln}。具体来说，我们将原始英文字幕翻译成五种不同的语言（德语、法语、捷克语、日语和中文），涵盖了本工作研究的所有下游任务所需的语言。请注意，随着低资源语言机器翻译的最新进展，我们可以进一步将数据集扩展到更多语言，留待未来工作。通过这种数据增强，我们获得了 330 万张图像，每张图像都与六种语言的字幕配对，如图 2 (a) 所示的过程。这种一对多映射极大地促进了通过图像作为共享锚来学习每种语言的视觉内容和语义之间的对齐。通过将翻译后的数据引入模型预训练，我们的方法在仅应用于下游任务的 MT 工具的基础上产生了显着的改进。接下来，我们详细说明如何利用这些数据进行跨语言跨模态预训练

在这里插入图片描述

图 2. UC2 模型概述。图（a）显示了通过机器翻译构建多语言多模态预训练语料库。 (b) 描述了整个 UC2 框架，该框架是用大量多语言字幕-图像对的语料库进行预训练的。图（c）和（d）说明了四个预训练任务的细节。

3.2. Model Overview

UC2 将 V+L 框架的单语语言编码器（例如 UNITER [10]）扩展到跨语言编码器 [11]，如图 2（b）所示。视觉特征是从图像编码器中提取的，语言特征是从通用的跨语言语言编码器中获得的。

然后将多模态特征组合成一个序列并馈送到多层 Transformer 以产生上下文化的跨模态和跨语言表示。

Image Encoder. 给定输入图像，我们首先使用 Faster R-CNN [39] 获得图像区域特征序列 v = {v1, v2,····, vm}。对于每个区域，我们还通过一个 7 维向量提取位置特征：p = [x1, y1, x2, y2, w, h, w∗ h]，表示归一化的左上角坐标、右下角坐标、宽度，高度，以及检测到的区域框的面积。区域特征和位置特征通过单独的全连接 (FC) 层进行馈送，以投影到与文本嵌入空间相同的维度，然后是层归一化 (LN) 层。然后通过将投影区域特征和位置特征相加得到区域特征的最终表示。

跨语言语言编码器
我们按照 XLM-R [11] 使用 Sentence Piece 模型 [31] 将语言 $l_i$ 中的输入句子 $T^{l_i}$ 标记为 BPE 标记 $t^{l_i} =\{t^{l_i}_1 , t^{l_i}_2 , ···, t^{l_i}_n\}$ 。然后，我们根据 XLM-R 词汇表和词嵌入将每个标记投影到其嵌入。每个token的最终表示是通过总结其在XLM-R中的word embedding, segment embedding, and position embedding得到的，然后是另一个 Layer Nor-malization。

3.3. Pre-training Tasks

对于模型训练，我们采用四个预训练目标来训练大型多语言图像文本配对数据：掩蔽语言建模 (MLM)、图像文本匹配 (ITM)、掩蔽区域到标记建模 (MRTM) 和视觉翻译语言建模（VTLM），如图2（c）和（d）所示。我们通过多语言图像-文本对的四个目标不断优化我们的模型，以捕捉视觉和不同语言之间的跨模态对齐。由于翻译后的字幕与同一图像相关联，因此还使用视觉上下文作为锚点来强制执行跨语言对齐。

3.3.1 General Tasks

在之前的 V+L 预训练工作 [10, 33, 36, 44] 之后，我们将 Masked Language Modeling 和 Image-Text Matching 视为我们的两个预训练任务。

Masked Language Modeling (MLM). 给定一组图像区域 $v = \{v_1, v_2, · · · , v_m\}$ 及其相关的标题词 $w^{l_i} =\{w^{l_i}_1 , w^{l_i}_2 , ···, w^{l_i}_T\}$ ，语言为 $l_i∈ L$ ，掩码索引为 $m∈ N^M$ ，我们以 15% 的概率随机屏蔽一个单词 $w^{l_i}_m$ ，并用特殊标记 [mask] 替换被屏蔽的单词。目标是通过最小化负对数似然，根据周围的词 $w_{nm}$ 和所有图像区域 v 来预测掩码词 $w^{l_i}_m$ ：

在这里插入图片描述
其中θ是可学习的参数。每对 (wli , v) 都是从整个训练集 D 中采样的。每种语言的字幕以偶数概率 p = 1/|L| 进行采样。

图像文本匹配 (ITM) : ITM 已广泛用于视觉和语言预训练 [10、33、36、44]，以学习图像和句子之间的实例级对齐。 特殊标记 [cls] 的输出通过 FC 层和 sigmoid 函数来预测 0 到 1 之间的分数 sθ(wli , v)，它预测输入图像 v 和文本输入 wli 是否在语义上匹配。在训练期间，我们在每一步都以相等的概率从数据集 D 中采样正负对。负图像-文本对是通过用来自同一小批量的随机选择的干扰项替换匹配对中的图像或文本来创建的。使用二元交叉熵损失优化目标：
在这里插入图片描述

其中 y∈ {0, 1} 表示输入的图文对是正样本还是负样本。 MLM 和 ITM 的部署是我们的基本模型。接下来，我们介绍了两个新目标，以进一步增强跨语言跨模态表示学习。

3.3.2 Masked Region-to-Token Modeling

既然我们有了语言学习目标（MLM），那么视觉对应物呢？在现有的 VLP 模型中，蒙面区域建模 (MRM) 通过预测与蒙面图像区域相关的 top-1 或软对象标签来实现此目的。获取对象标签的实际方法是使用来自现成对象检测器（例如，Faster R-CNN [39]）的预测。但是，这种方法有两个限制。首先，图像中的对象标签和文本中的单词标记之间的关联没有得到很好的利用。虽然图像中检测到的显着对象通常在成对描述中被提及，但 MRM 忽略了这种联系，因为它直接将蒙版图像区域预测为 0 到 1600 之间的索引。第二，由于嵌入空间的不同，从目标检测器提取的视觉嵌入可能与预先训练的单词嵌入有显著差异。现有的方法仅仅依靠来自预训练目标的弱监督来缩小这两个不同的嵌入空间之间的差距。我们认为，鉴于其复杂的多语言多模态性质，良好对齐的嵌入空间对于我们的问题是必不可少的。因此，我们建议明确学习区域和单词标记之间的对应关系，并用两种策略解决上述问题。

Masked Region-to-Token Modeling (MRTM) ：这个新目标旨在将每个mask区域分类为其“伪”对象标签（例如，“狗”、“猫”，由预训练的对象检测器提供）(就是分类问题)，这是我们单词词汇表中关联的（子词）token 带有原始对象标签。与之前工作中的 MRM 目标 [36、33、10] 相比，MRTM 利用对象标签和字幕之间的额外语义关联来捕获视觉和语言之间的语义对齐。更正式地说，给定一个图像区域 vi∈v，我们将其被屏蔽的概率设置为 15%（如 [13] 中所示）。对于每个蒙版区域，区域特征向量要么被零初始化向量 vm（90% 概率）替换，要么保持不变（10%）。然后我们根据对周围图像区域 v\m 和语言 li 中的配对标题 $w^{l_i}$ 的观察，通过最小化负对数似然来预测mask区域上相关的“伪”对象标签 $c^{l_i}_{v_m}$ ：
在这里插入图片描述
Early Adaptation (EA). 提前适应：为了解决第二个限制并促进视觉和语言之间联合嵌入空间的学习，我们预热图像编码器以确保输出视觉嵌入与词嵌入共享相同的嵌入空间。具体来说，每个图像区域通过图像编码器投影到图像区域特征vi∈Rp，与词嵌入向量具有相同的维度。然后我们从 XLM-R 中提取对应于 k 个对象类别 c = {c1, c2, . . . , ck} 由目标检测器定义。我们计算投影图像特征 vi 与 k 个词嵌入向量后跟一个 softmax 函数之间的余弦相似度，从而得到一个归一化分布 hθI (vi)∈ Rk，它表示对该区域中映射的语义的预测。然后，我们通过最小化它们的 KL 散度来最大化这个预测分布和来自目标检测器输出 g(vi)∈RK 的“GT”目标概率分布之间的相似性：（提前使他们的维度相同的意思吧）
在这里插入图片描述
其中θI是图像编码器的可学习参数。

请注意，最近一项名为OSCAR[35]的工作也做出了类似的努力，通过在输入序列中插入对象标记来缩小视觉文本嵌入的差距。与OSCAR[35]相比，我们的方法有两个优点。首先，它不依赖于下游任务的对象标签，这可能不适用于预训练检测器的对象类别无法很好覆盖的图像域。其次，通过使用EA强制图像表示与语言表示相似，我们的预训练模型可以更好地利用仅语言预训练模型的初始化权重来适应图像模态。

3.3.3 Visual Translation Language Modeling

迄今为止提到的所有目标都是基于图像和单语输入，而没有考虑跨语言目标。语言之间的对应关系对于跨语言概括至关重要，从现有的语言理解工作中可以清楚地看到[11]。到目前为止，我们提出的方法无一例外地通过图像焦点间接学习跨语言对应，这可能是不够的。因此，我们提出了视觉翻译语言建模（VTLM），它直接和联合学习视觉语境和不同语言文本之间的对齐。

在VTLM中，给定两种不同语言的图像v和一对字幕（wli，wlj），目标是预测两种语言的隐藏字幕标记。这两种语言中的一种总是英语，因为我们的培训前数据中的英语字幕直接来自[41]，而其他语言中的字幕由机器翻译，因此不太可靠。在这种双语框架下，模型输入大小只会随着语言的增多而线性增长。

此外，由于我们的模型是使用强大的预训练多语言模型的权重进行初始化的，它已经在一定程度上学会了不同语言单词之间的良好对齐。在 VTLM 中应用随机掩码策略是次优的，因为该模型可以通过简单地将单词从一种语言翻译成另一种语言来做出正确的预测，而无需考虑来自图像的视觉信息。为了鼓励模型充分考虑视觉上下文，我们引入了一种称为 co-masking 的策略，在这种策略中，我们同时从成对的字幕中屏蔽掉具有相似语义的标记，以防止简单的翻译。

co-masking有几个步骤。首先，我们应用 Fast Align [14] 从使用机器翻译创建的嘈杂平行语料库中学习两种不同语言（li，lj）之间的单词对齐。然后，在预训练阶段，我们遵循与 MLM 相同的策略，从一种语言的标题中随机屏蔽一个令牌 $w^{l_i}_m$ 。对于另一种语言 $l_j$ 中的配对标题，我们屏蔽了从 Fast Align 预测的对齐单词标记 $w^{l_j}_k$ 。 [14] 最终目标再次通过最小化负对数似然来预测两种语言的掩码标记：

在这里插入图片描述

4. Experiments

在本节中，我们提供了详细的实验来评估我们提出的 UC2 模型在多语言图像文本检索和多语言 VQA 任务上的效果。

多语言图像文本检索
在检索任务中，该模型从给定某种语言标题的一组候选图像中检索图像，反之亦然。我们考虑两个数据集：Multi30K（16, 15, 4）和MSCCOCO〔9, 51, 34〕。Multi30K是基于Flickr30K[52]构建的，在Flickr30K中，英文字幕被手动翻译成德语、法语和捷克语。它包含31K幅图片（每幅都有5个英文和德文字幕，1个法文和捷克文字幕）。
在Flickr30K[52]之后，我们将数据拆分为29K/1K/1K图像，用于train/val/test。

MSCOCO[9]由123K图像组成，每张图像有5个英文字幕。STAIR[51]通过收集165K COCO图像的820K 日文字幕 ，扩展了MSCOCO数据集。类似地，Li等人[34]收集了20K COCO图像的中文字幕，每幅图像大约有一个字幕。我们使用[27]中定义的英语和日语的train/dev/test拆分，并在1K测试集上显示结果。对于MSCOCO中文版，我们遵循[34]中的原始拆分。我们计算Recall@K（回忆前K个候选项）用于图像到文本检索和文本到图像检索，K=1,5,10。
所有这6个评估分数的平均值，平均回忆（AR）[24]被用作最终评估指标

（训练英中日）

多语言视觉问答 (VQA)
在多语言 VQA 中，给定图像和某种语言的问题，模型根据图像中的视觉上下文预测答案。我们在两个数据集上评估我们的模型：VQA v2.0 [20] 和日本视觉基因组 (VG) VQA [42]。 VQA v2.0 是英语 VQA 任务广泛使用的基准测试。我们按照官方分区划分数据集并通过官方评估服务器在Test-Dev集上报告结果。在 [10] 之后，我们的训练通过在 VQA v2.0 的训练和验证拆分以及 Visual Genome [30] 的 VQA 上运行来增强。 Visual Genome VQA Japanese [42] 通过在来自 VG 的 99K 图像上收集 793K 日本问答对，扩展了 VG English VQA 数据集 [30]。我们使用原始 VG VQA 中的训练/测试拆分将数据拆分为 61K/30K 训练/测试图像。我们将 VQA 表述为一个多标签分类问题，其中模型从候选池中预测答案。3 VQA 分数 [20] 用于将模型预测与 VQA v2.0 中的 10 个人工注释答案进行比较。在每个问题只有一个真实答案的 Visual Genome VQA Japanese 上，我们使用准确率和 BLEU 分数作为评估指标。 4

实现细节
实现细节UC2由12层transformer blocks组成，每个block有768个隐藏单元和12个self-attention head。 除图像编码器外，模型均使用 XLM-R [11] 进行初始化。我们使用 MLM、ITM、MRTM 和 VTLM 目标进行持续的预训练。我们使用 Adam 优化器 [29] 对前 5% 的训练进行线性预热，并将学习率设置为 4e-4。我们使用 Horovod 和 NCCL 进行多节点通信，并应用梯度累积（每 3 步）减少多 GPU 通信开销。预训练的batchsize设置为1024，dropout率为0.1。预训练实验在 8 个 Nvidia V100 GPU 上进行 30 个 epoch，需要 4 天才能收敛

4.1 实验结果

我们首先将 UC2 与有或没有对两个下游任务进行预训练的各种 SOTA 进行比较。然后，我们进行消融实验来研究 MRTM 和 VTLM 的有效性，以及图像旋转的影响。最后，我们将预训练的 UC2 模型学习到的视觉上下文和跨语言文本上下文之间的对齐可视化。

4.4.1评价多语言检索

在这里插入图片描述
对不同语言的Flickr30K和MSCOCO数据集的图像文本检索的评估结果。我们用蓝色突出显示MULE和SMALR的MSCOCO结果，因为与其他模型相比，它们使用不同的MSCOCO开发/测试拆分。

我们在两种不同的设置中将 UC2 与最先进的图像检索和文本检索方法进行比较：

• 仅英语微调：仅在英语训练数据上微调预训练模型。
• 单语言微调：针对每种目标语言的训练数据对预训练模型进行微调。
• 全语言微调：在所有语言的合并训练数据上对预训练模型进行微调。

除了报告每种语言的AR，我们还计算元Ave（两个数据集中所有语言的AR平均值），以反映该任务的总体性能。鉴于我们可以使用预先训练过的机器翻译模型，我们还引入了一个基于[10]的强大翻译测试基线UNITERCC，它根据概念英语数据进行预先训练，并根据下游任务中的英语训练数据进行微调。通过将测试数据从其他语言翻译成英语，UNITERCC可以直接用于文本/图像检索。结果汇总在表1中

我们在全语言环境下建立的模型在不进行预训练的情况下，比所有任务特定的方法都有了显著的改进，显示了跨语言跨模态预训练在跨视觉和不同语言学习普遍表征方面的有效性。我们的模型还展示了优越的可转移性。当只使用英语数据集时，我们观察到，通过更好地将所学知识从英语转换到其他语言，与M3P相比，不同语言的元Ave的绝对增益为17.3%。与在每种语言的数据上训练的最好的非预训练模型相比，我们在纯英语水平下的跨语言模型仍然好5%。
我们怀疑这种改进来自领域内的预培训目标：我们在ITM中使用图像作为基础媒体，学习从一种语言到另一种语言的跨模态映射。由于具有很强的迁移能力，我们的模型可以潜在地将所学知识从高资源语言推广到低资源语言的下游任务。

当我们在全语言数据上微调 UC2 模型时，我们的模型在大多数语言上仍然表现出优于 M3P 的一致优势，在 Meta-Ave 上提高了 3.4%。我们最好的模型也优于 MSCOCO 中除英语以外的所有语言的强翻译测试基线 UNITERCC。考虑到我们的预训练时间平均分配到多种语言，COCO 英语的表现稍差可能是由于缺乏对英语数据的预训练。然而，这并不能掩盖我们在所有语言中实现整体更好性能的事实。由于跨语言预训练和微调，我们的模型可以利用以不同语言捕获的互补信息来提高每种语言的性能。

4.1.3 消融实验

训练目标的影响
为了验证提出的训练前目标MRTM和VTLM的有效性，我们进行了消融研究，以验证它们对模型性能的贡献。我们逐渐取消了两个拟议的培训目标，并在两项下游任务中评估了这些消融模型。在将预先训练好的模型用于图像文本检索任务时，我们遵循最佳实验设置，在所有语言数据上训练该模型。在VQA任务中，模型直接根据目标语言数据进行微调。

从表3中，我们观察到，与两种语言相比，MRTM在多语言VQA任务上带来了显著的性能提升，同时在图像文本检索任务上获得了一些增量改进。VQA需要更精细地理解语言和视觉环境之间的联系，因此，MRTM捕获的跨模态局部对齐会带来更多好处。在UC2的预训练中引入VTLM时，我们观察到图像文本检索任务有类似的改进，但VQA VG日语的改进相对渐进。我们怀疑帮助有限主要是因为英语和日语字幕之间的语言差异。因此，很难通过VTLM捕捉到英语和日语之间的良好一致性

结论

我们提出了第一个机器翻译增强预训练模型UC2，该模型主要以图像为中心，以英语为补充，从大规模的多语言图像到文本对学习跨语言跨模态表示。我们提出了两个新的训练前任务，这有助于我们的模型更好地捕捉视觉和不同语言之间的一致性。我们的模型在两种主流的多语言V+L任务上达到了最新水平，并展示了强大的跨语言传输能力。在未来的工作中，我们将继续探索这个主题，并将框架扩展到更多语系。
随着更多关于多语言视频-文本对的基准[48,40,3]变得可用，我们有兴趣通过利用视频中的时间信息来增强视觉和语言之间的基础。

论文笔记：UC2: Universal Cross-lingual Cross-modal Vision-and-Language Pre-training