Spatial Transformer Network (STN)原文解读

最近在研究attention机制,这篇是发表于16年的一篇涉及Attention机制的paper。

提出的原因:

(1)现有的CNN结构对空间不变形的处理能力较弱

(2)希望根据文理和形状就可以区分object的方位和部分变形

(3)max-pooling具有一定的空间不变形能力,但是局部的,而且只限制在高层次的cnn和max-pooling层,中间层无法获取空间转换能力。(某种程度来说,现有的CNN的空间转换不变性是受限的、预定义的)

优点:

(1)end-to-end的train

(2)stn的trainformer模块是可微的,不需要使用有监督训练或者修改现有优化机制,根据自己的特征图就可以主动学习特征图的转换能力

(3)spatial transformer能解决的图片转换种类:平移(translation)、缩放(scale)、旋转(rotate)和扭曲(warp)

(4)STN直接对数据处理,而不是对特征提取器处理!

原理:

spatial transformer的模块组成:定位网络、产生网格、抽样映射。

(1)localisation network

转换的theta多种多样,实现形式也是多种多样,只需要最后一层可以输出回归值就行。

(2)grid generator

\left(\begin{array}{c}{x_{i}^{s}} \\ {y_{i}^{s}}\end{array}\right)=\mathcal{T}_{\theta}\left(G_{i}\right)=\mathrm{A}_{\theta}\left(\begin{array}{c}{x_{i}^{t}} \\ {y_{i}^{t}} \\ {1}\end{array}\right)=\left[\begin{array}{ccc}{\theta_{11}} & {\theta_{12}} & {\theta_{13}} \\ {\theta_{21}} & {\theta_{22}} & {\theta_{23}}\end{array}\right]\left(\begin{array}{c}{x_{i}^{t}} \\ {y_{i}^{t}} \\ {1}\end{array}\right)

映射方向是:输出target=》输入source

(3)sampler

对输入特征图的像素抽样,计算经过何种方式可以获取到输出像素值。

需要保证输入和输出的channel数目一致。

源码实现注意点:

(1)spatial transformer的数目(一般来说6个参数作为整体)和输入图片数目保持一致。

-- 未完待续 --

发布了64 篇原创文章 · 获赞 24 · 访问量 4万+

猜你喜欢

转载自blog.csdn.net/qm5132/article/details/95110958