[論文の理解]空間トランスネットワーク

空間変圧器ネットワーク

簡単な紹介

本論文では、機能のアフィン変換を学習することができる構造を提案し、その構造は、他の情報ネットワークへの追加の監督を必要としません自体はアフィン変換の結果を予測するのに有用学ぶことができるようになります。ある程度の空間特性CNN変換不変性は、プールや他の操作を破壊されているので、あなたがオブジェクトのアフィン変換した後、ネットワークまたは他のオブジェクトへの翻訳のよりよい表現を対応できるようにしたいので、我々は構造を設計する必要がありますこの変換機能の役割は、良い仕事を表現することができるように、この変換を学習。

ネットワークアーキテクチャ

Uは、入力された特徴マップ上の図を表す、により学習ブランチ出力は、より堅牢な表現を有するようにサンプラー、機能によって出力差または他のフィーチャにマッピング次に、空間変圧器を変換、。

変換空間構造は、以下に詳細に説明する3つの部分から構成されています。

アフィン変換

二次元変換行列は、で表すことができる、請求アフィンパン、ズームへの変換、反転、回転、及び作物のこれらのタイプの変換:
\ [\左(\}マトリックス{X「\\ Y」\ {終了マトリックスを開始します} \右)= \ [左 \ {行列} X開始(左\ \開始{行列} \ theta_1&\ theta_2&\ theta_3 \\ \ theta_4&\ theta_5&\ theta_6 \\ \端{行列} \右] \\は、Y \\ 1 \端{行列
} \右)\] 異なる変換に対応する異なる値をとるシータ対応します。だから、学生はより効果的な表現を取得する機能を助け、このネットワークの変革を学びます。

ローカリゼーションネットワーク

上図に対応する部分の局在ネット部分は、目的は、上記の式のパラメータシータを研究することであり、それは、この部分の構造は、直接であれば6にマッピングすることができるように完全または6シータ使用CONV構造に接続することができる、と言うことですその上シータ。これは簡単な部分です。

パラメータ化サンプリンググリッド

この部分は、図グリッドジェネレータの部分に相当し、この部分の役割は、我々は、上述したアフィン変換に対応する入力画像の位置、即ち位置を確立するために、出力画像にマッピングされ、我々は、この中に上記構造から学ぶことができますシータパラメータは注意が同じである必要があり、各チャネルを変換する変換された入力行列のアフィン変換、通されます。式は以下のように表されます。

私たちは、それが学習シータパラメータの一部でしかありません、唯一の変換を学習シータ値を制限することで、ネットワークを定義することができます。

微分画像のサンプリング

上記のアフィン変換のみマッピングの場所はかつてのを変換する変換定義し、実際には、このマッピングを使用すると、その後の補間方法を使用し、値を与えると、いくつかのポイントは、何も値がないことを意味し、完全なものではありません。紙は、最近傍補間、バイリニア補間の補間方法の2種類に言及しています。

最近傍補間のために、このような定義が与えられます。

このような特徴の出力のi番目の値に対して、対応する入力フィーチャの位置が出力される場合にのみ、既知krnoeckerデルタ関数によって定義され、m及びnに依存0したがって、引数のみ上記式Mに形成されている1に点最も近い整数値だけでなく、整数n上の最も近い点に対応する点からx方向は、最も近いポイントの両方向の値の値に対応するy方向を得ることができます。

バイリニア補間の場合、この定義を与えます:

mの値とnはXY方向の距離に対応する点内の整数であるだけ値のみ、上記式から知られており、最も近い整数対応する点までの距離は、(0.5、0.5)の4点であることができますその4つの最も近い点から、(0,0)、(0,1)、(1,1)、(1,0)であり、それは2つの距離重み値は、4つのフロントUの値の後ろになるであろう式は距離重みとして解釈することができるので、点の一点の整数値は、4つの値の最も近い点加重合計に丸め。

逆伝搬

上記で定義された機能に対応する、著者は出力への入力が逆伝播例として双一次補間を行うことができることを実証しました。

おすすめ

転載: www.cnblogs.com/aoru45/p/11488935.html