RRU-Net：The Ringed Residual U-Net for Image Splicing Forgery Detection阅读笔记一

文章目录

1. Introduction
2. Related Work
3. The Ringed Residual U-Net (RRU-Net)
4. Evaluation Experiment and Comparative Analysis

1. Introduction

根据现有的拼接伪造检测方法中使用的特征提取方法，主要可以分为两类：基于传统特征提取的检测方法和基于卷积神经网络(CNN)的检测方法。

对于传统的基于特征提取的检测方法，大致可以分为四类：基于图像本质属性（image essence attribute）的检测方法[3,25,34]，基于成像设备属性（imaging device attribute）的检测方法[6,8,13，17]，基于图像压缩属性（image compression attribute）的检测方法[12,14,30]，以及基于哈希技术的检测方法[23,26,29,35]。

这些检测方法一般聚焦于一个指定的图像属性，因此在现实任务上存在以下局限性:

a)如果在拼接伪造的过程之后执行一些隐藏过程(如整体模糊操作)，基于图像本质属性的检测方法可能会失败;
b)如果图像的设备噪声强度较弱，则基于成像设备属性的检测方法可能会失败;
c)基于图像压缩属性的检测方法只能检测以JPEG格式保存的图像;
d)基于哈希技术的检测方法依赖于原始未篡改图像的哈希，因此不能严格视为盲型伪造检测方法。

2. Related Work

U-Net：U-Net 由 Olaf Ronneberger 等人在2015年[21]提出。U-Net在神经元结构分割方面取得了巨大的成功，其框架是开创性的，因为特征是在层之间传播的。在U-Net中，通过收缩路径（contracting path，连续层，successive layers）捕获上下文信息（context information），对输出特征进行上采样，然后与对称扩展路径传播的高分辨率特征（high-resolution features propagated by a symmetric expanding path）相结合，这减少了细节信息的丢失，并实现了精确定位。因此，一些基于U-Net的图像分割方法[4,10]已经被提出。

事实上，图像拼接伪造检测（image splicing forgery detection）可以看作是一项不同于人类视觉系统的复杂图像分割任务。我们需要在一幅图像中，最多的时候分割出人眼无法分辨的篡改区域。定位篡改区域的唯一方法，依赖于图像本质属性的差异（differences of image essence attributes），可以通过提取区分特征（discriminative features）来发现。虽然 U-Net 可以在网络层之间提取一些相对浅层的区分特征，但 U-Net 结构只有两侧是相互作用的，这不足以确认篡改区域。此外，当网络架构越深时，会出现梯度退化问题[7]。

他说的只有两端是互相作用的，指的应该就是 U-Net 比较特殊的译码—解码的结构。

ResNet: ResNet由何凯明等人提出，[7]在2015年，它在ImageNet match的分类任务中获得冠军。在ResNet中，残差映射定义为Eq.(1)。

3. The Ringed Residual U-Net (RRU-Net)

3.1. Residual Propagation

根据上面的讨论，图像本质属性的差异是检测图像拼接伪造的重要依据，但是当网络架构越深，梯度退化问题就会破坏这个依据。为了解决梯度退化问题，我们在堆叠的每一层中都加入了残差传播。图2显示了一个构建模块（building block），它由两个卷积（dilated convolution [31]， dconv）层和残差传播（residual propagation）组成。构建模块的输出定义为：

$y_{f}=F\left(x,\left\{W_{i}\right\}\right)+W_{s} * x\tag{2}$

其中， $x$ 和 $y_f$ 是构建块的输入和输出， $W_i$ 表示第 $i$ 层的权重，函数 $F(x，\{W_i\})$ 表示要学习的残差映射。

对于图2中有两个卷积层的例子， $F=W_{2} \sigma\left(W_{1} * x\right)$ ，其中 $σ$ 表示ReLU[19]，为了简化符号，偏差被省略。线性投影 $W_s$ 用于改变 $x$ 的维度以匹配 $F\left(x,\left\{W_{i}\right\}\right)$ 。通过快捷连接（shortcut connection）和元素相加来执行操作 $F+W_s*x$ 。

short connection 就是指的是网络这种连接结构，元素相加指的是具体实际的数值操作。卷积可以被看作是矩阵相乘，但是为什么两个卷积层可以理解为是一个非线性函数。

残差传播看起来像人类大脑的回忆机制。当我们学习到更多的新知识时，可能会忘记以前的知识，所以我们需要回忆机制来帮助我们唤起那些以前的模糊记忆。

在这里插入图片描述

3.2. Residual Feedback

很明显，在拼接伪造检测中，如果能够进一步加强未篡改区域和篡改区域之间的图像本质属性差异，则可以进一步提升检测的性能。在[36]中，所提方法通过将伪造图像通过SRM滤波层来叠加噪声属性，以增强检测结果。SRM滤波层具有一定的效果，但是，它是一种人工选择的方法，只能用于RGB图像的伪造检测。而且，当未篡改区域和篡改区域来自相同品牌和型号的相机时，SRM滤波层的有效性会急剧降低，因为它们具有相同的噪声属性。

为了进一步加强图像本质属性的差异，提出了残差反馈，这是一种自动学习的方法，而不是只关注一个或几个特定的图像属性。进一步地，我们设计了一种简单有效的注意力机制，它利用了Hu等人[9]的思想，然后我们将其添加到残差反馈中，以更加关注输入信息的 discriminative features。

在这个注意力机制中，我们选择采用一个简单的带有 sigmoid 激活函数的门控机制（gating mechanism）来学习 a nonlinear interaction between discriminative feature channels，避免特征信息的扩散，然后我们将sigmoid激活得到的响应值叠加在输入信息上，以放大未篡改区域和篡改区域之间的图像本质属性差异。构建块中的残差反馈如图3所示，定义为Eq.(3)，

$y_{b}=\left(s\left(G\left(y_{f}\right)\right)+1\right) * x\tag{3}$

其中， $x$ 是输入， $y_f$ 是 $\mathrm{Eq.(2)}$ 中定义的残差传播的输出， $y_b$ 是增强输入。函数 $G$ 是线性投影，用于改变 $y_f$ 的维度。函数 $s$ 是一个sigmoid激活函数。

这里简单的门控机制能够避免特征信息的扩散

与残差传播模拟的回忆机制相比，残差反馈（the residual feedback）似乎充当了人脑的巩固机制（consolidation mechanism），我们需要巩固我们已经学过的知识，获得新的特征理解。残差反馈可以放大输入中未篡改区域和篡改区域之间的图像本质属性差异，如图1 (c) 所示，篡改区域“鹰”通过残差反馈被放大为全局最大响应值。此外，它还具有两个深远的影响：

(1)区分特征的加强可以同时被视为对负标签特征的抑制;
(2)网络在训练过程中的收敛速度更快。

在这里插入图片描述

3.3. Ringed Residual Structure and Network Architectures

结合残差传播和残差反馈的环形残差结构如图4所示。残差传播就像人脑的回忆机制一样，通过回忆输入的特征信息来解决更深层次网络中的退化问题；残差反馈则巩固输入特征信息，使未篡改区域与篡改区域之间的图像本质属性差异被放大。综上所述，环形残差结构保证了在网络层间提取特征的同时，图像本质属性特征的区分度更加明显，比传统的基于特征提取的检测方法和现有的基于 CNN 的检测方法能够取得更好且稳定的检测性。RRU-Net的网络架构如图5所示，它是一个端到端的图像本质属性分割网络，无需任何预处理和后处理即可直接检测拼接伪造。

在这里插入图片描述

4. Evaluation Experiment and Comparative Analysis

Compared Detection Methods：为了对比所提 RRU-Net 的性能，我们选择了三种基于传统特征提取的检测方法、两种基于 CNN-based detection methods 和两种 semantic segmentation methods，它们是DCT[30]、CFA[5]、NOI[18]、DF-Net [15] C2R-Net[27]、FCN[16]和DeepLab v3[2]。DCT是JPEG DCT系数直方图的一种 inconsistent detection method。在CFA中，颜色滤波器阵列（color
filter array，CFA）插值模式中的干扰被建模为高斯分布的混合，以检测篡改区域。NOI通过小波滤波（wavelet Filtering）提取 local image noise variance modeling 来检测拼接区域。比较的检测方法（DCT、CFA和NOI）主要由Zampoglou、Papadopou-los和Kompatsiaris[32]实现。在我们的实验中，我们选择了这个版本的算法进行估计。C2R-Net和DF-Net使用CNN检测篡改区域，它们使用图像块作为CNN的输入，算法代码由作者提供。DF-Net在CASIA上是低效的，因为这种方法使用64∗64图像块作为输入，而CASIA上的图像较小，所以我们没有在这个数据集上呈现它的结果。

FCN 和 DeepLab v3 是经典的有效的检测方法对于图像语义分割任务，两者都取得了较好的检测性能。此外，我们利用 U-Net 和 residual U-Net （RU-Net）两种检测方法来进一步评估RRU-Net中残差残差结构的有效性。U-Net的实现参照其在[21]中的原始结构，RU-Net的结构去掉了RRU-Net中的残差反馈。

Implementation Detail：

在这里插入图片描述