论文阅读-DGM4-Detecting and Grounding Multi-Modal Media Manipulation

一、论文信息

论文名称：Detecting and Grounding Multi-Modal Media Manipulation

作者团队：南洋理工+哈工大

Github:https://github.com/rshaojimmy/MultiModal-DeepFake

项目主页：https://rshaojimmy.github.io/Projects/MultiModal-DeepFake

论文地址：https://arxiv.org/abs/2304.02556

二、动机与创新

动机

由于如Stable Diffusion等视觉生成模型的快速发展，高保真度的人脸图片可以自动化地伪造，制造越来越严重的DeepFake问题。随着如ChatGPT等大型语言模型的出现，大量假本文也可以容易地生成并恶意地传播虚假信息。

为此，一系列单模态检测模型被设计出来，去应对以上AIGC技术在图片和文本模态的伪造。但是这些方法无法较好应对新型伪造场景下的多模态假新闻篡改。具体而言，在多模态媒体篡改中，各类新闻报道的图片中重要人物的人脸（如下图中法国总统人脸）被替换，文字中关键短语或者单词被篡改（如下图中正面短语「is welcome to」被篡改为负面短语「is forced to resign」）。这将改变或掩盖新闻关键人物的身份，以及修改或误导新闻文字的含义，制造出互联网上大规模传播的多模态假新闻。

创新

本文提出的DGM4与现有的图像和文本伪造检测相关任务的比较

主要贡献

本文提出了检测并定位多模态媒体篡改任务DGM4、构建并开源了DGM4数据集，同时提出了多模态层次化篡改推理模型。

三、方法

1、检测并定位多模态媒体篡改数据集DGM4

为了支持对DGM4研究，如下图所示，本工作贡献了全球首个检测并定位多模态媒体篡改DGM(4)数据集。

DGM(4)数据集调查了4种篡改类型，人脸替换篡改（FS）、人脸属性篡改（FA）、文本替换篡改（TS）、文本属性篡改（TA）。下图展示了 DGM(4) 整体统计信息，包括（a）篡改类型的数量分布；（b）大多数图像的篡改区域是小尺寸的，尤其是对于人脸属性篡改；（c）文本属性篡改的篡改单词少于文本替换篡改；（d）文本情感分数的分布；（e）每种篡改类型的样本数。

此数据共生成23万张图像-文本对样本，包含了包括77426个原始图像-文本对和152574个篡改样本对。篡改样本对包含66722个人脸替换篡改，56411个人脸属性篡改，43546个文本替换篡改和18588个文本属性篡改。

2、多模态层次化篡改推理模型

下图是提出的多模态层次化篡改推理模型HierArchical Multi-modal Manipulation rEasoning tRansformer (HAMMER)，本文认为多模态的篡改会造成模态间细微的语义不一致性。因此通过融合与推理模态间的语义特征，检测到篡改样本的跨模态语义不一致性，是本文应对DGM(4)的主要思路。

基于此想法，如上图所示，本文提出了多模态层次化篡改推理模型HierArchical Multi-modal Manipulation rEasoning tRansformer (HAMMER)。此模型建立在基于双塔结构的多模态语义融合与推理的模型架构上，并将多模态篡改的检测与定位细粒度层次化地通过浅层与深层篡改推理来实现。

具体而言，如图3所示，HAMMER模型具有以下两个特点：

1）在浅层篡改推理中，通过篡改感知的对比学习（Manipulation-Aware Contrastive Learning）来对齐图像编码器和文本编码器提取出的图像和文本单模态的语义特征。同时将单模态嵌入特征利用交叉注意力机制进行信息交互，并设计局部块注意力聚合机制（Local Patch Attentional Aggregation）来定位图像篡改区域；

2）在深层篡改推理中，利用多模态聚合器中的模态感知交叉注意力机制进一步融合多模态语义特征。在此基础上，进行特殊的多模态序列标记（multi-modal sequence tagging）和多模态多标签分类（multi-modal multi-label classification）来定位文本篡改单词并检测更细粒度的篡改类型。