这是一篇来自MICCAI2018,随后在IEEE Transactions on Medical Imaging再次发表的文章
文章有两个创新点
1、Recombination
线性增加feature map的数量,然后再压缩feature map的数量,是为了让网络学习到如何混合信息来生成更加特别的特征
这点觉得很像mobilenet v2里边的Inverted residuals
如上图所示,将feature map使用1*1卷积扩大channel数,然后再用1*1卷积减少channel数到原本channel数大小
2、Recalibration
SEnet其实相当于是做了cross-channel的attention,在分类网络中,很有用,效果很好
但是呢,本文提到在分割网络中,使用SEblock的效果不好,因为是对每个channel整体做权重,但是呢,分割是对spatial也就是位置信息敏感的,对整个channel做权重,那么对位置信息的提取是没有多大帮助的
因此,本文就提出了spatially adapted attention的模块,来解决对位置信息敏感
Spatially adaptive Squeeze-and-Excitation
a) Spatially adaptive Squeeze-and-Excitation for segmentation — SegSE
就是使用3*3的卷积代替se block中的global average pooling,用来获取局部信息,然后在使用dila conv来获取大的感受野
在对前一步的操作,使用1*1卷积,恢复到原始channel数,然后使用sigmoid激活函数
最后与原始feature map进行element-wise multipilication
这个操作,其实就是相当于对用dila对整个feature map做了一个权重分配
b) Variant 1 - No context
这是移除global average pooling之后的一种简单形式
直接使用1*1卷积,然后再使用1*1卷积用sigmoid激活函数
c) Variant 2 - Pooling-based context:
先使用stride和size都为p的average pooling降低分辨率,然后在使用1*1卷积,在使用transp conv(反向卷积)恢复分辨率,最后使用1*1卷积激活函数sigmoid