注意力机制——Spatial Transformer Networks（STN）

Spatial Transformer Networks（STN）是一种空间注意力模型，可以通过学习对输入数据进行空间变换，从而增强网络的对图像变形、旋转等几何变换的鲁棒性。STN 可以在端到端的训练过程中自适应地学习变换参数，无需人为设置变换方式和参数。

STN 的基本结构包括三个部分：定位网络（Localization Network）、网格生成器（Grid Generator）和采样器（Sampler）。定位网络通常由卷积层、全连接层和激活函数构成，用于学习输入数据的空间变换参数。网格生成器用于生成采样网格，采样器则根据采样网格对输入数据进行采样。整个 STN 模块可以插入到任意位置，用于提高网络的对图像变形、旋转等几何变换的鲁棒性。

在 STN 中，定位网络通常由一个多层感知器（MLP）和一些辅助层（如卷积层、全连接层和激活函数）构成。MLP 的输出用于计算变换参数（如平移、旋转和缩放等），从而生成采样网格。采样器通常由双线性插值、最近邻插值和反卷积等方法实现，用于对输入数据进行采样。

STN 的优点在于，它可以学习对输入数据进行任意复杂的空间变换，从而提高网络的对图像变形、旋转等几何变换的鲁棒性。此外，STN 可以与其他深度学习模型结合使用，从而提高整个系统的性能。例如，在图像分类任务中，可以将 STN 插入到卷积神经网络中，用于对输入图像进行空间变换，增强网络对图像变形、旋转等几何变换的鲁棒性。

STN注意力模块pytorch实现：

import torch
import torch.nn as nn
import torch.nn.functional as F

class STN(nn.Module):
    def __init__(self):
        super(STN, self).__init__()
        # 定义本地化网络，用于估计空间变换的参数
        self.localization = nn.Sequential(
            nn.Conv2d(1, 8, kernel_size=7), # 输入通道数为 1，输出通道数为 8，卷积核大小为 7
            nn.MaxPool2d(2, stride=2), # 最大池化层，核大小为 2，步长为 2
            nn.ReLU(True), # ReLU 激活函数
            nn.Conv2d(8, 10, kernel_size=5), # 输入通道数为 8，输出通道数为 10，卷积核大小为 5
            nn.MaxPool2d(2, stride=2), # 最大池化层，核大小为 2，步长为 2
            nn.ReLU(True) # ReLU 激活函数
        )
        # 定义空间变换网络，用于预测空间变换的参数
        self.fc_loc = nn.Sequential(
            nn.Linear(10 * 3 * 3, 32), # 全连接层，输入维度为 10 * 3 * 3，输出维度为 32
            nn.ReLU(True), # ReLU 激活函数
            nn.Linear(32, 3 * 2) # 全连接层，输入维度为 32，输出维度为 3 * 2
        )
        # 初始化空间变换网络的权重和偏置
        self.fc_loc[2].weight.data.zero_()
        self.fc_loc[2].bias.data.copy_(torch.tensor([1, 0, 0, 0, 1, 0], dtype=torch.float))

    def forward(self, x):
        # 使用本地化网络对输入图像进行特征提取
        xs = self.localization(x)
        # 将特征张量展开成一维张量
        xs = xs.view(-1, 10 * 3 * 3)
        # 使用空间变换网络预测空间变换的参数
        theta = self.fc_loc(xs)
        # 将一维张量转换成二维张量，用于执行仿射变换
        theta = theta.view(-1, 2, 3)
        # 使用仿射变换对输入图像进行空间变换
        grid = F.affine_grid(theta, x.size())
        x = F.grid_sample(x, grid)
        return x

以上代码中，STN 类继承自 PyTorch 的 nn.Module 类，是一个包含了本地化网络和空间变换网络的模块。具体来说，STN 模块包含以下组件：

self.localization：本地化网络，用于对输入图像进行特征提取，提取出用于估计空间变换参数的特征向量。
self.fc_loc：空间变换网络，用于根据本地化网络提取的特征向量预测空间变换的参数。
self.fc_loc[2].weight.data.zero_() 和 self.fc_loc[2].bias.data.copy_(torch.tensor([1, 0, 0, 0, 1, 0], dtype=torch.float))：用于初始化空间变换网络的权重和偏置，其中权重矩阵初始化为零矩阵，偏置向量初始化为一个 torch.tensor 对象，其元素为 [1,0,0,0,1,0][1,0,0,0,1,0]，表示初始的空间变换为一个单位矩阵。
forward 方法：模块的前向传播过程。首先使用本地化网络对输入图像进行特征提取，然后将特征张量展开成一维张量，使用空间变换网络预测空间变换的参数。接着将一维张量转换成二维张量，用于执行仿射变换，并使用仿射变换对输入图像进行空间变换，最后返回变换后的图像张量。

STN模块在模型中添加：

class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.stn = STN()
        self.conv1 = nn.Conv2d(1, 10, kernel_size=5)
        self.conv2 = nn.Conv2d(10, 20, kernel_size=5)
        self.fc1 = nn.Linear(320, 50)
        self.fc2 = nn.Linear(50, 10)

    def forward(self, x):
        # 使用 STN 对输入图像进行空间变换
        x = self.stn(x)
        # 经过卷积和池化层处理
        x = F.relu(F.max_pool2d(self.conv1(x), 2))
        x = F.relu(F.max_pool2d(self.conv2(x), 2))
        x = x.view(-1, 320)
        x = F.relu(self.fc1(x))
        x = self.fc2(x)
        return F.log_softmax(x, dim=1)

注意力机制——Spatial Transformer Networks（STN）

猜你喜欢