CVPR2020- 频域学习一半的数据输入，提升MASK RCNN | Learning in the Frequency Domain

挺新颖的论文

在这里插入图片描述

Abstract：

深度神经网络在计算机视觉任务中取得了显著的成功。现有的神经网络主要在固定输入尺寸的空间域内运行。在实际应用中，图像通常很大，必须向下采样到预定的神经网络输入大小。尽管下行采样操作减少了计算量和所需的通信带宽，但它同时在不影响冗余和显著信息的前提下消除了冗余和显著信息，从而导致精度下降。受数字信号处理理论的启发，我们从频率的角度分析了频谱偏差，提出了一种基于学习的频率选择方法来识别可以在不损失精度的情况下去除的琐碎频率分量。提出的频域学习方法利用了众所周知的神经网络的相同结构，ResNet-50、MobileNetV2和Mask R-CNN，同时接受频域信息作为输入。实验结果表明，与传统的空间降采样方法相比，基于静态信道选择的频域学习方法可以获得更高的精度，同时进一步减小了输入数据的大小。针对相同输入大小的ImageNet分类，分别在ResNet-50和MobileNetV2上实现了1:41%和0:66%的top-1精度改进。即使只有一半的输入大小，该方法仍然可以将ResNet-50的top1精度提高1%。此外，我们观察到MASK R-CNN的平均精度提高了0.8%，例如在COCO数据集上的实例分割。

Introduction：

1.深度学习网络的推理速度尤为重要，然而，现代相机拍摄的图像通常要大得多。例如，高清晰度(HD)分辨率图像(1920x1080)被认为是相对较小的现代标准。甚至ImageNet数据集的平均图像分辨率也是482x415，这大约是大多数CNN模型所能接受的大小的四倍。因此，为了满足分类网络的输入要求，大量的真实图像被压缩到224x224。然而，图像的缩小不可避免地会带来信息的丢失和精度的下降。

在这里插入图片描述
上图展示了空间域与频域输入模型的不同：
1).在传统的方法中，高分辨率的RGB图像通常在CPU上进行预处理，然后传输给GPU/AI加速器进行实时推理。由于RGB格式的未压缩图像通常很大，因此CPU和GPU/AI加速器之间的通信带宽要求通常很高。这种通信带宽可能成为系统性能的瓶颈，如图1(a)所示。为了降低计算成本和通信带宽的要求，高分辨率的RGB图像被下采样到更小的图像中，这常常导致信息丢失和推理精度降低。
2).在我们的方法中，高分辨率的RGB图像仍然在CPU上进行预处理。然而，它们首先被转换到YCbCr颜色空间，然后转换到频域。这与最广泛使用的图像压缩标准(如JPEG)一致。所有相同频率的分量被分组到一个信道中。这样，就产生了多个频率通道。如3.2节所示，某些频率信道对推理精度的影响要大于其他信道。因此，我们建议只保留和传输最重要的频率通道到GPU/AI加速器进行推理。与传统方法相比，该方法要求较少的通信带宽，同时具有较高的精度。

2.本文提出在频域内对高分辨率图像进行变换，即，而不是在空间域对其进行调整，然后将重新调整后的DCT系数输入CNN模型进行推理。该方法直接降低了所需的片间通信带宽，而片间通信带宽是现代深度学习推理系统的瓶颈。快速进化的AI加速器/ gpu的计算吞吐量越来越高于cpu的数据加载吞吐量。

3.分析了频域内的图像分类、检测和分割任务，发现CNN模型对低频通道比对高频通道更敏感，与人的HVS吻合。利用解码后的高保真图像进行模型训练和推理，在数据传输和计算方面都面临着巨大的挑战。由于CNN模型的频谱偏倚，在推理过程中只能保留重要的频率信道，而不会丢失准确性。在这篇论文中，我们也发展了一种静态的信道选择方法来保留显著的信道，而不是使用整个频谱来进行推断。实验结果表明，当输入数据量减少87.5%时，CNN模型仍然保持了相同的精度。

Methodology：

在这里插入图片描述
本文提出了一种通用的频域学习方法，包括数据预处理管道和输入数据大小剪枝方法

频域数据预处理，主要包含：
1.包括图像变换大小、裁剪和翻转与RGB空间域输入相同
2.将输入图像由RGB空间变换到YCbCr空间，然后由DCT变换到频域
3.然后将相同频率的二维DCT系数分组到一个信道，形成三维DCT立方体(图中为DCT reshape)
4.选取影响较大的频率通道子集(图2中为DCT通道选择)，将YCbCr颜色空间中选取的频率通道拼接在一起，形成一个张量(图2中为DCT拼接)。
5.最后利用训练数据集计算的均值和方差对每个频率通道进行归一化处理

在这里插入图片描述
由于JPEG压缩标准在YCbCr颜色空间上使用8 x 8 DCT转换，所以我们将所有8 x 8块中相同频率的组件分组到一个通道中，在每个频率上维护它们的空间关系。因此，每个Y、Cb和Cr组件提供8 x 8 = 64个通道，每个频率一个，在频域中总共有192个通道。假设原始RGB输入图像的形状为H x W x C，其中C = 3，图像的高度和宽度分别记为H和W。转换到频域后，输入特征形状变为H/8 x W/8 x 64C，保持了相同的输入数据大小。

以ResNet50为例，将频域内的输入特征连接到第一个残差块，调整通道数为192，形成的输入特征为
56x56x192，如图2所示。即由大小为448x448x3的输入图像转换而来的DCT，其在空间域上保留的信息是大小为224x224x3的四倍，但代价是输入特征大小的4倍。类似地，对于模型MobileNetV2，输入的特征形状是112x112 x192，由大小为896x896x3的图像reshape而成。

基于学习的通道选择：
在这里插入图片描述
由于输入特征的不同通道具有不同的频率，我们推测，对于后续的图像分类、目标检测、实例分割等任务，某些频率通道的信息量更大，去除琐碎的频率通道不会导致性能下降。因此，我们提出了一种基于学习的通道选择机制来利用每个输入频率信道的相对重要性。我们使用了一个动态门控模块，它为每个频率通道分配一个二进制分数。突出的通道被评为一个，其他为零。零分的输入频率通道与网络分离。因此，减少了输入数据的大小，从而降低了域转换的计算复杂度和通信带宽需求。所提出的门模块结构简单，可以作为在线推理模型的一部分。具体操作为：

1.Tensor1->Tensor3， SEblock同样操作
2.Tensor3->Tensor4，由11C->112C，其中2是门控关或者开的概率
3.Tensor4的192个通道中的每一个通道的两个数字都被归一化，作为采样为0或1的概率，然后点乘以输入频率通道，得到图4中的Tensor5

Experiments：

1.classification results on ImageNet：
在这里插入图片描述

2.Instance Segmentation COCO 2017 validation set：
在这里插入图片描述