【CVPR2018】スクイズアンドエキサイトネットワーク(SEnet)

この記事はCVPR2018に掲載されました .2018年に著者がこの記事についてその場で話したのを聞きました(先延ばしのため、現在はブログのみです)。これは今年の口頭の記事であり、近年のモメンタチームの最後の重い学業とも考えられています。国際的な実践、最初に論文のタイトルとリンクを与える。

标题:圧搾と興奮のネットワーク

リンク:https : //arxiv.org/abs/1709.01507


つまり、2018年までに、Alexnet、VGG、InceptionからResNet、DenseNet、そして最後にSEnetまで、さまざまなCNN構造が繁栄します。SEnet以来、主流の焦点になったバックボーンはありません。当時の紙の共有を聞いたとき、SEnetの作者はこう言いました:今、基本モデルはそれとは何の関係もありません

確かに、VGGやresなどの多くの古代の構造物は、さまざまなプロジェクトでまだアクティブになっています。

このペーパーは非常にシンプルです。写真を見るだけで、すべてを理解できます。

より楽しいアイデアはシンプルですが実用的です。ちょうどresnetのように、私はとても気に入っています。「高度な感覚」を反映するために、単純なことを複雑なものとして意図的に説明する必要はありませんが、多くの記事がこの間違いを犯しています。上図に示すように、SEnetは主にSE構造Squeeze-and-Excitationブロックを発明しました

SEブロック

SEブロックは主に機能マップに作用します。CNN構造の中間出力は、いわゆる機能マップです。この機能マップの次元は、チャネルと呼ばれるものです。

SEの最初のステップは、各機能マップを圧縮し、グローバルプーリングを使用して機能マップを数値に圧縮することです。チャネルの数がCであると仮定すると、機能マップはCの数に圧縮されます。

2番目のステップは、これらのC番号をトレーニング可能な小さなニューラルネットワークに送信することです。これにより、フィーチャマップの重みを予測できるC番号を出力し、元のフィーチャマップに乗算します。SEブロックによって処理される機能マップは、各チャネルの重みをより合理的に割り当てます。

この小さなニューラルネットワークとは何ですか?次の図を見てください。(完全に接続されたレイヤーです)

おすすめ

転載: blog.csdn.net/leviopku/article/details/108523659