STN(空間トランスネットワーク)

URL:https://arxiv.org/abs/1506.02025
年:2015

ブログ:
https://kevinzakka.github.io/2017/01/10/stn-part1/
https://kevinzakka.github.io/2017/01/18/stn-part2/

コード:
https://github.com/kevinzakka/spatial-transformer-network

紹介します

コンボリューションニューラルネットワークは、特に強力なモデルのクラスを定義しますが、まだ空間的に不変なデータを入力する能力を欠いています。この作品では、新しいモジュールの導入は、ネットワーク内のデータは、宇宙オペレーションをクリアすることができ、その空間コンバータ(空間変圧器)を、学ぶことができます。このようなモジュールは、任意の変更または追加の監督なしに図転換特徴空間、最適化プロセスのイニシアチブを取るために、既存の微分畳み込みアーキテクチャ、ニューラルネットワークに挿入することができます。本論文では、STNの使用は、モデルがパンできるようにすることを学び、ズーム、回転させ、より一般的な不変変形、いくつかのSOTAの性能ベンチマークをもたらし、変換多くのタスクが含まれていることができます示しています。

建築

ローカリゼーションネットワーク:生成するために使用されるアフィン変換パラメータ
グリッドジェネレータ:?特徴マップグリッドは、出力が固定されている座標が、その値は、最初にすべての、私たちは、出力特徴マップを見つける必要があり、この問題を解決するために座標どのように各くらいです入力特徴マップ座標との間のマッピング関係後、マッピング関係を見つけ、座標値の出力値(図には、テキストを制御しないことができ、以下に示すように、特徴マップ機能マップは、対応する入力によって座標を充填します)

サンプラー:グリッドの出力からマッピングするので、入力特徴マップ上の値を調整する機能マップ座標は、特徴マップにおける出力値以下座標入力特徴マップを囲む対応する4つの点によって決まる座標点を、小数であってもよいです。典型的には双線形差分マナー
-w450の
-w450

双一次差分方程式は次のよう
を

実験

歪んだMNISTの

細部

ストリートビューハウス番号の詳細

-w637

すべてのネットワークが恒等変換予測する初期化され、空間変圧器の回帰層を除いて、ランダムに初期化された重みと、SGDとドロップアウトして最初から訓練を受けています。

(STCNN Single): a spatial transformer immediately following the input
(ST-CNN Multi): where the localization networks are all two layer fully connected networks with 32 units per layer

key value
base learning rate 1e-2
learning rate for localization network a tenth of the base learning rate
weight decay 5e-4
dropout 0.5
conv[N, w, s, p] conv[batch_size, window, stride, padding]
max[s] a s × s max-pooling layer with stride s
fc[N] a fully connected layer with N units

CNN-baseline
conv[48,5,1,2]-max[2]-
conv[64,5,1,2]-conv[128,5,1,2]-max[2]-
conv[160,5,1,2]-conv[192,5,1,2]-max[2]-
conv[192,5,1,2]-conv[192,5,1,2]-max[2]-
conv[192,5,1,2]-fc[3072]-fc[3074]-fc[3074]

localizaton network
conv[32,5,1,2]-max[2]-conv[32,5,1,2]-fc[32]-fc[32]

Fine-Grained Classification Details

-w887

Thought

当前动作识别中, 有些检测框框的并不准, 而且一些动作不需要关注全局信息就可以判断, 将 STN 当做特征检测器使用.

就是使用来说,

  1. Localisation Network 的学习率设置很重要, 太大容易不收敛, 推荐为主网络的学习率 1e-3到 1e-5之间.
  2. Localisation Network不要用 imagenet pretrain 的参数初始化, 没有随机初始化的容易收敛而且性能也差些, 猜测原因是 pretrain 的参数关注的是抽象的语义特征, 而仿射变换参数的预测关注的几何位置特征, 二者不匹配
  3. 文中 Localisation Network 的卷积核设置都比较大

おすすめ

転載: www.cnblogs.com/nowgood/p/stnspatial-transformer-networks.html