基于BERT的多模态应用：图像，视频如何通过BERT处理

本次分享的是结合了预训练的语言模型BERT和视觉方面的结合。分为单流模型和双流模型。单流模型指在训练开始前融合多模态数据，双流模型是先对多模态数据进行独立编码，在进行融合。

文本介绍的1-4模型为单流模型，5-6为双流模型。

视频+文本的训练方法

通过automatic speech recognition （ASR）模块和vector quantization（VQ）模块，加上BERT形成整个模型。其中ASR模块是用来识别语音的神经网络模块，用来将视频中的语音翻译成文本。VQ模块用来提取视频中图像的特征。

模型采用了sequence word+sequence video的结构训练。结合构图如图所示：
在这里插入图片描述
输入数据为视频语音文字拼接视频图像。并采用了BERT原文中常见的mask方法。

同VideoBERT，VisualBERT同样使用了输入数据=image+text的形式。但是区别是在训练开始时先使用Transformer的self attention机制对图像数据和文本进行融合。

其中，text部分使用word token mask。使用RCNN对图像处理，形成图像的分割，再对分割后的图像进行掩模。

同样是训练开始时对数据融合，区别是使用了Faster-RCNN处理图像，使用了图像区域特征和图像位置进行编码。

与2，3工作没有太多本质上的区别。使用了预训练方法MLM处理输入数据。训练任务为MLM，图像标签分类，图像语言匹配任务。

使用了先编码，后融合的方法。在编码后，使用了context attention对图像和文本配对。训练任务为预训练MLM，图像语言匹配任务。

与5差不多
训练任务为预训练MLM，图像语言匹配任务，图像掩模，图像问答任务。