【计算机视觉 | 图像模型】常见的计算机视觉 image model(CNNs & Transformers) 的介绍合集(八)

一、nnFormer

nnFormer,或者不是另一个 transFormer,是一种语义分割模型,具有基于自注意力和卷积的经验组合的交错架构。 首先,在变压器块之前使用轻量级卷积嵌入层。 与直接展平原始像素并应用 1D 预处理相比,卷积嵌入层对精确(即像素级)空间信息进行编码,并提供低级但高分辨率的 3D 特征。 在嵌入块之后,变压器和卷积下采样块交织在一起,以将长期依赖关系与各种尺度的高级和分层对象概念完全纠缠在一起,这有助于提高学习表示的泛化能力和鲁棒性。

在这里插入图片描述

二、Big-Little Net

Big-Little Net 是一种用于学习多尺度特征表示的卷积神经网络架构。 这是通过使用多分支网络来实现的,该网络在具有不同分辨率的不同分支处具有不同的计算复杂度。 通过频繁合并不同尺度分支的特征,该模型以较少的计算量获得多尺度特征。

它由 Big-Little 模块组成,这些模块有两个分支:每个分支代表深度模型中的一个单独块和一个不太深的对应块。 两个分支通过线性组合+单位权重融合。 这两个分支被称为大分支(低分辨率下更多层和通道)和小分支(高分辨率下更少层和通道)。

在这里插入图片描述

三、DenseNet-Elastic

DenseNet-Elastic 是一种卷积神经网络,是带有弹性块(额外的上采样和下采样)的 DenseNet 的修改版。

在这里插入图片描述

四、ResNet-RS

ResNet-RS 是 ResNet 架构系列,在 TPU 上比 EfficientNet 快 1.7 倍,同时在 ImageNet 上实现类似的精度。 作者提出了两种新的缩放策略:(1)在可能发生过度拟合的情况下缩放模型深度(否则最好使用宽度缩放); (2) 提高图像分辨率的速度比以前建议的要慢。

其他改进包括使用余弦学习率计划、标签平滑、随机深度、RandAugment、减少权重衰减、挤压和激励以及使用 ResNet-D 架构。

在这里插入图片描述

五、ConvMLP

在这里插入图片描述
在这里插入图片描述

六、MUSIQ

MUSIQ(多尺度图像质量转换器)是一种基于 Transformer 的多尺度图像质量评估模型。 它处理具有不同尺寸和纵横比的原始分辨率图像。 在 MUSIQ 中,我们构建了一个多尺度图像表示作为输入,包括原始分辨率图像及其 ARP 调整大小的变体。 每个图像被分割成固定大小的补丁,这些补丁由补丁编码模块(蓝色框)嵌入。 为了捕获图像的 2D 结构并处理不同纵横比的图像,通过散列补丁位置对空间嵌入进行编码到在可学习嵌入的网格内(红色框)。 引入尺度嵌入(绿色框)来捕获尺度信息。 Transformer 编码器获取输入标记并执行多头自注意力。 为了预测图像质量,MUSIQ 遵循 Transformers 中的常见策略,在序列中添加 [CLS] 标记来表示整个多尺度输入,并将相应的 Transformer 输出用作最终表示。

在这里插入图片描述

七、MultiGrain

MultiGrain 是一种图像模型,它学习类、实例和副本的单一嵌入。 换句话说,它是一个同时适用于图像分类和实例检索的卷积神经网络。 我们通过联合训练多个任务的图像嵌入来学习 MultiGrain。 得到的表示是紧凑的,并且可以胜过严格训练的嵌入。 学习到的嵌入输出包含不同级别的粒度。

在这里插入图片描述

八、LeVIT

LeVIT 是一种用于快速推理图像分类的混合神经网络。 LeViT 是变压器块的堆栈,具有池化步骤来降低激活图的分辨率,就像经典卷积架构中一样。 这用带有池化的金字塔取代了 Transformer 的统一结构,类似于 LeNet 架构

在这里插入图片描述

九、HS-ResNet

HS-ResNet 是一种卷积神经网络,采用分层分割块作为类似 ResNet 架构中的中心构建块。

在这里插入图片描述

十、DeepViT

DeepViT 是一种视觉 Transformer,它用 Re-attention 模块取代 Transformer 模块中的自注意力层,以解决注意力崩溃问题,并能够训练更深层次的 ViT。

在这里插入图片描述

十一、ResNeXt-Elastic

ResNeXt-Elastic 是一种卷积神经网络,是带有弹性块(额外的上采样和下采样)的 ResNeXt 的修改版。

在这里插入图片描述

十二、VoVNetV2

VoVNetV2 是一种卷积神经网络,它在 VoVNet 的基础上进行了改进,具有两种有效的策略:(1)用于缓解较大 VoVNet 优化问题的残差连接,以及(2)处理原始挤压的通道信息丢失问题的有效挤压激励(eSE) -和-励磁模块。

在这里插入图片描述

十三、CornerNet-Squeeze Hourglass

CornerNet-Squeeze Hourglass 是 CornerNet-Squeeze 对象检测器中使用的卷积神经网络和对象检测主干。 它使用修改后的沙漏模块,该模块利用了火模块:包含 1x1 卷积和深度卷积。

在这里插入图片描述

十四、DenseNAS-A

DenseNAS-A 是通过 DenseNAS 神经架构搜索方法发现的移动卷积神经网络。 基本构建块是 MobileNet 架构中的 MBConvs(或反向瓶颈残差)。

在这里插入图片描述

十五、LR-Net

LR-Net 是一种非卷积神经网络,它利用局部关系层而不是卷积来提取图像特征。 除此之外,该架构遵循与 ResNet 相同的设计。

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/wzk4869/article/details/132896725
今日推荐