1 Conv4

在一些论文中，也称为Conv-64F。其中“64F”表示网络中使用了64个滤波器（filters）

它包含 4 个重复的卷积块，在每个块中包含：

输入图像的大小调整为 3 × 84 × 84 ，经过第一个卷积块后channel从3变成64。

有些论文还会在最后添加一个大小为5的全局最大池化层以降低嵌入的维数，大大减少后期转换的计算负担。

四个卷积块如图所示：
在这里插入图片描述

四个卷积块是相同的，图像shape的变化过程

第一个卷积块如下如图所示：
在这里插入图片描述

在最后的卷积层之后，Conv-64F还包括一个全连接层，用于将特征图转换为分类输出。全连接层的输出经过softmax函数激活，得到最终的分类结果。

总体来说，Conv-64F主干网络是一个相对简单的卷积神经网络结构，但在许多图像分类和目标识别任务中已经表现出良好的性能。

Resnet12

Resnet12包含4个残差块，每个残差块有3个卷积层。“12”表示一共有12个卷积层；
一个残差块包含，如图(a)：

在这里插入图片描述

图像shape的变化过程

ResNet12被广泛应用于图像分类、目标检测和语义分割等任务中，其具有优秀的性能和较低的计算复杂度，即可以有效地解决深度神经网络中的梯度消失和梯度爆炸问题，并且可以在保持较小计算量的同时实现高精度的分类。