基于迁移学习的openship长尾数据分类

本文代码公布在以下仓库：

https://github.com/VitaminyW/classfier_for_LT_Openship

PS：有需要解答的代码问题可以评论或私信。

一、介绍

随着Sentinel-1合成孔径雷达（SAR）数据的快速增长，如何利用Sentinel-1图像并实现有效和稳健的海洋监视是至关重要的问题[1]。最近，深度学习在计算机视觉领域应用逐渐广泛，如图像分类[2,3]，目标检测[4,5]等。通过将SAR数据与深度学习在计算机视觉的工作相结合，可以帮助我们更简单地实现海洋监控。本文旨在通过将SAR数据转化为图像文件，并利用深度学习对OpenSARShip中的不同船舶进行分类，以帮助实现海洋监控。值得注意的是，本文所用数据集中各个类别的船舶数量极其不均匀，占比最大的货船包含8240张样本，而占比最小的只有2张样本。从总体上看，各个类别的样本数呈现LTD现象[1]，如下图所示。

图1. 长尾分布数据类别数量展示

当使用LTD数据进行学习时，一个常见的挑战是样本数大的（或头部）类主导了训练过程。学习的分类模型往往在这些类上表现得更好，而对于样本数稀缺类（或尾部类）的表现则明显更差。为了实现在LTD数据上更好地实现船舶分类问题，本文提出了结合ResNet的预训练参数以及样本均匀采样的解决方案。

二、方法

由于本文使用的Mini-OpenSARShip数据集样本数量较少，若通过该数据集进行图像特征表示学习，可能不能获得较好的特征表示，本文受迁移学习[6]启发，利用在ImageNet这一大规模数据集上训练的Resnet模型作为表示任务的模型，并在Mini-OpenSARShip上训练分类器，值得注意地是，在训练过程中为了避免分类器对头部类别过拟合，本文使用了样本均衡采样方法对数据进行重采样，即每个样本被采样的概率为1C，其中C为类别数。

2.1 Resnet

ResNet[3]是2016年He等人在ISLVRC和COCO上提出的网络，该模型有效的解决了伴随深度的增加，网络的性能却不再增加，甚至出现下降的问题，ResNet在模型中巧妙地加入残差连接这一方式，使得深层网络拥有比浅层网络更好的性能。

残差学习的概念主要是提出了一个残差网络块，如图2所示，假设原先某个神经网络输入x，原本期望输出H(x)，如果将x直接从输入连接到输出，此时学习目标为发生改变，变为两者的残差，即为F(x)=H(x)-x，图中两个权重学习到的是原网络块结果与输入特征的差值。

采用残差连接的好处在于残差学习所学习的内容更少，相比原始需要学习整张图像来说更简单。同时，残差学习保证了网络的性能只会有所提升而不会收到损失，因为即使残差学习到内容为零，此时相当于卷积层之间进行恒等映射，对网络性能没有影响，而残差学习到的内容不为零时，网络就从中学习到了新的内容，有助于网络性能的提升。

图2. 残差模块

本文采用的是ResNet50的结构，在特征提取的结构中，为卷积块和恒等块这两个基本的块构成了特征提取部分，其中恒等块用于处理输入和输出维度相同时的网络，主要的作用是加深网络，如图3所示；卷积块主要用于处理输入与输出不相同时的网络，残差边上的卷积层能够实现这一点，它的作用是改变网络的维度，如图4。

图3. 恒等块图4. 卷积块

ResNet50总体结构如图5所示，以输入图片600×600为例，首先经过零填充避免图像边缘信息损失，然后经过步长为2的卷积，数据标准化，激活函数层增加非线性和最大池化层降采样后，分别经过卷积块和2、3、5次恒等块。

图5 ResNet50特征尺寸图

2.2 类别均衡采样策略

为了避免学习分类决策边界时，模型对头部类别过拟合，尾部类别欠拟合，本文使用了类别均衡采样策略加载数据，即首先对类别进行均匀采样，再在所采类别中均匀采样一个样本，反复重复进行训练。

三、后续可优化方案

通过将LTD识别任务解耦为表示学习与决策边界学习任务，利用在ImageNet数据集中训练好的ResNet作为图像表示提取器，并结合类别样本均匀采样策略对决策边界进行学习，能够在测试集上达到56.28%的准确度。但由于OpenSARShip本身图像与ImageNet中的自然图像差别较大，若只冻结ResNet中提取底层特征的网络层，并添加表示学习的训练，可能该方法能达到更好的表现。

参考文献：

[1] Huang L, Liu B, Li B, et al. OpenSARShip: A dataset dedicated to Sentinel-1 ship interpretation[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2017, 11(1): 195-208.

[2] Sellami A, Tabbone S. Deep neural networks-based relevant latent representation learning for hyperspectral image classification[J]. Pattern Recognition, 2022, 121: 108224.

[3] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.

[4] Wang C Y, Bochkovskiy A, Liao H Y M. Scaled-yolov4: Scaling cross stage partial network[C]//Proceedings of the IEEE/cvf conference on computer vision and pattern recognition. 2021: 13029-13038.

[5] Sun P, Zhang R, Jiang Y, et al. Sparse r-cnn: End-to-end object detection with learnable proposals[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021: 14454-14463.

[6] Pan S J, Yang Q. A survey on transfer learning[J]. IEEE Transactions on knowledge and data engineering, 2010, 22(10): 1345-1359.