用于图像语义分割的GAU与PPM

简单记录一下用于图像语义分割的2个模块

1. GAU(Global Attention Upsample, 全局注意力上采样模块)

全局注意力上采样模块 (GAU)通过全局池化将高层特征作为低层特征的加权计算的指导,提取高层次特征的全局上下文信息。

实现如下所示:

对低层次特征执行3×3的卷积操作,同时减少CNN特征图的通道数;

从高层次特征经过全局平均池化生成的全局上下文信息依次经过 1×1 卷积、批量归一化 (batch normalization) 和非线性变换操作 (nonlinearity),然后再与低层次特征相乘;

最后,高层次特征与加权后的低层次特征相加并进行逐步的上采样过程;

GAU模块不仅能够更有效地适应不同尺度下的特征映射,还能以简单的方式为低层次的特征映射提供指导信息。

 基于keras的代码实现:

# GAU(Global Attention Upsample, 全局注意力上采样模块)
# 低层特征图low_fm进行3*3卷积
# 高层特征图high_fm进行GAP、1*1,再与低层特征图进行相乘操作、批归一化、非线性激活
# 将上述得到的低层特征图与高层特征图进行相加融合
def GAU(low_fm, high_fm, filters):
    n, h, w, c = low_fm.get_shape().as_list()
    # 3*3
    low_fm = Conv2D(filters=filters, kernel_size=3, strides=1, padding='same', 
                    use_bias=False, dilation_rate=(1, 1))(low_fm)
    # GAP
    high_fm_up = GlobalAveragePooling2D()(high_fm)
    # 1*1
    high_fm_up = Reshape(target_shape=[1, 1, int(high_fm_up.shape[-1])])(high_fm_up)
    high_fm_up = tf.image.resize_bilinear(image=high_fm_up, size=[h, w], align_corners=True,
                                          name='resize_bilinear')
    high_fm_up = Conv2D(filters=filters, kernel_size=1, strides=1, padding='same', 
                    use_bias=False, dilation_rate=(1, 1))(high_fm_up)
    # 融合
    x = Multiply()([low_fm, high_fm_up])
    x = BatchNormlization()(x)
    x = Activation('relu')(x)

    # 输出
    high_fm = tf.image.resize_bilinear(image=high_fm, size=[h, w], align_corners=True,
                                          name='bilinear')
    out = Add()([x, high_fm])
    return out

2. PPM(Pyramid pooling module, 金字塔池化模块)

PPM目的是为了聚合不同特征层的上下文信息,以提高网络获取全局信息的能力,在不同的尺度下以保留全局信息使用不同多尺度的pooling操作,比起普通的pooling操作更能保留全局上下文信息;

具体做法为:在原始特征图上使用不同尺度的池化,得到多个不同尺寸的特征图,再在通道维度上拼接这些特征图 (包含原始特征图),最终输出一个糅合了多种尺度的复合特征图,从而达到兼顾全局语义信息与局部细节信息的目的;

示意图如下所示:

(a)图为单幅原始输入图像;
(b)图为通过CNN提取的原始特征图;CNN模块可以根据需要自行选择,论文中给出的该特征图尺寸为6*6;
(c)图为PPM模块:对(b)特征图进行不同尺度的池化操作,得到多个不同尺寸的特征图,然后对得到的特征图进行上采样操作,恢复至原始特征图大小,最后在通道维度上进行拼接,得到最终的融合了多种尺度的复合特征图;

例如图中为4个不同的池化操作,分别为红、橙、蓝和绿来表示:

红:使用6×6的池化,输出尺寸为1×1,再通过双线性插值上采样至6×6;
橙:使用3×3的池化,输出尺寸为2×2,再通过双线性插值上采样至6×6;
蓝:使用2×2的池化,输出尺寸为3×3,再通过双线性插值上采样至6×6;
绿:使用1×1的池化,输出尺寸为6×6 。

(d)图为最终预测结果, 通过1*1卷积调整通道,以实现像素级别的分类。

 基于keras的代码实现:

以下代码用于语义分割,其中模型网络使用的是ghostnet作为主干网络实现;

其中的双线性插值上采样可参考GAU模块的代码,以下代码需要根据实际需要进行更改;

# PPM(Pyramid pooling module, 金字塔池化模块)
# bin_size=[]为池化尺寸, 根据需要自行选择
def PPM(inputs, bin_sizes=[5, 9, 13]):
    n, h, w, c = inputs.get_shape().sa_list()
    
    # 1*1降维
    inputs = Conv2D(filters=c // 4, kernel_size=1, strides=1, padding='same', 
                    use_bias=False, dilation_rate=(1, 1))(inputs)
    inputs = BatchNormlization()(inputs)
    inputs = Activation('relu')(inputs)
    concat_list = [inputs]

    # 池化
    for bin_size in bin_sizes:
        x = AvgPool2D(pool_size=[bin_size, bin_size], strides=(1, 1), padding='same')(inputs)
        concat_list.append(x)

    net = Concatenate(axis=-1)(concat_list)
    net = Conv2D(filters=c, kernel_size=1, strides=1, padding='same', 
                 use_bias=False, dilation_rate=(1, 1))(net)
    net = BatchNormlization()(net)
    net = Activation('relu')(net)

    return net

猜你喜欢

转载自blog.csdn.net/panghuzhenbang/article/details/125932095
今日推荐