【计算机视觉 | 图像模型】常见的计算机视觉 image model（CNNs & Transformers）的介绍合集（八）

文章目录

一、nnFormer

nnFormer，或者不是另一个 transFormer，是一种语义分割模型，具有基于自注意力和卷积的经验组合的交错架构。首先，在变压器块之前使用轻量级卷积嵌入层。与直接展平原始像素并应用 1D 预处理相比，卷积嵌入层对精确（即像素级）空间信息进行编码，并提供低级但高分辨率的 3D 特征。在嵌入块之后，变压器和卷积下采样块交织在一起，以将长期依赖关系与各种尺度的高级和分层对象概念完全纠缠在一起，这有助于提高学习表示的泛化能力和鲁棒性。

在这里插入图片描述

二、Big-Little Net

Big-Little Net 是一种用于学习多尺度特征表示的卷积神经网络架构。这是通过使用多分支网络来实现的，该网络在具有不同分辨率的不同分支处具有不同的计算复杂度。通过频繁合并不同尺度分支的特征，该模型以较少的计算量获得多尺度特征。

它由 Big-Little 模块组成，这些模块有两个分支：每个分支代表深度模型中的一个单独块和一个不太深的对应块。两个分支通过线性组合+单位权重融合。这两个分支被称为大分支（低分辨率下更多层和通道）和小分支（高分辨率下更少层和通道）。

在这里插入图片描述

三、DenseNet-Elastic

DenseNet-Elastic 是一种卷积神经网络，是带有弹性块（额外的上采样和下采样）的 DenseNet 的修改版。

在这里插入图片描述

四、ResNet-RS

ResNet-RS 是 ResNet 架构系列，在 TPU 上比 EfficientNet 快 1.7 倍，同时在 ImageNet 上实现类似的精度。作者提出了两种新的缩放策略：（1）在可能发生过度拟合的情况下缩放模型深度（否则最好使用宽度缩放）； (2) 提高图像分辨率的速度比以前建议的要慢。

其他改进包括使用余弦学习率计划、标签平滑、随机深度、RandAugment、减少权重衰减、挤压和激励以及使用 ResNet-D 架构。

在这里插入图片描述

五、ConvMLP

在这里插入图片描述

六、MUSIQ

MUSIQ（多尺度图像质量转换器）是一种基于 Transformer 的多尺度图像质量评估模型。它处理具有不同尺寸和纵横比的原始分辨率图像。在 MUSIQ 中，我们构建了一个多尺度图像表示作为输入，包括原始分辨率图像及其 ARP 调整大小的变体。每个图像被分割成固定大小的补丁，这些补丁由补丁编码模块（蓝色框）嵌入。为了捕获图像的 2D 结构并处理不同纵横比的图像，通过散列补丁位置对空间嵌入进行编码到在可学习嵌入的网格内（红色框）。引入尺度嵌入（绿色框）来捕获尺度信息。 Transformer 编码器获取输入标记并执行多头自注意力。为了预测图像质量，MUSIQ 遵循 Transformers 中的常见策略，在序列中添加 [CLS] 标记来表示整个多尺度输入，并将相应的 Transformer 输出用作最终表示。

在这里插入图片描述