紙の読書|画像分類ResNeXt

紙関連情報

1.論文のタイトル:ディープニューラルネットワークの集約された残差変換

2.公開時間:201611

3.ドキュメントアドレス:https://arxiv.org/abs/1611.05431

4.紙のソースコード:https://github.com/facebookresearch/ResNeXt

前書き

この記事では、画像分類のためのシンプルで高度にモジュール化されたネットワークアーキテクチャを提案します。ネットワークは、繰り返し積み重ねられるビルディングブロックの固定構造で構成されます。このビルディングブロックは、同じトポロジを持つ一連のビルディングブロックを集約します。変換。この単純なスタッキングのアイデアはVGGから継承され、モデルのハイパーパラメーター設定の特定のデータセットへの過剰適合を減らすことができます。同時に、Inceptionモデルのsplit-transform-merge戦略のアイデアを継承しますが、Inceptionモデルのsplit-transform-merge戦略と比較すると、よりシンプルでスケーラブルです-各モジュールは最初に低次元の埋め込みの数、次に変換(変換セット)がこれらの埋め込みに対して実行され、これらの出力は最終的に加算によって集約されます。ここでは、集約に使用される各変換セットは同じトポロジを使用します。この単純な設定により、ネットワークを簡単に拡張して、より多くの変換を取得できます。Inceptionモデルでは、各変換セットのフィルターを特別にカスタマイズする必要がありますが、これはより複雑であり、他のデータセットに一般化するのは簡単ではありません。ResNexXtの構成要素を次の図に示します。

ここに画像の説明を挿入します

深さと幅に加えて、ネットワークのもう1つの重要な要素として、ビルディングブロックカーディナリティで設定された変換のサイズを呼び出します。ネットワークには均質な複数のブランチがあるため、ネットワーク全体に設定する必要のあるハイパーパラメータはほとんどありません。実験により、カーディナリティを増やすと分類の精度が上がることが証明されています。同時に、同じネットワーク容量の下で、カーディナリティを増やすと、深度や幅を増やすよりも精度を上げることができます。

同じ計算の複雑さとモデルサイズの下で、ResNextはResNetよりもパフォーマンスが高く、Inceptionモデルよりも単純です。

幅は、レイヤー内のチャネルの数を指します。

さらに興味深いのは、上記の説明によると、ビルディングブロックには、次の図のbとcなど、他に2つの実装フォームがあることです。これらの3つの形式は厳密に等しく、得られる結果は同じであり、cの実装はより簡潔で高速であるため、この記事の実験では図のc(グループ畳み込み法)を使用していることに注意してください。

ここに画像の説明を挿入します

注意:

各モジュールのトポロジが固定され、各モジュールの入出力幅が固定されているため、ボトルネックの幅を個別に設定できます。本文では、ボトルネックの幅を個別に幅と呼び、ハイパーパラメータとしてのみ使用されます。 ;およびカーディナリティも独立させることができます。ハイパーパラメータとして。したがって、ResNeXtネットワークの命名形式はResNeXt-50(32×4d)です。これは、カーディナリティ= 32、ボトルネック幅= 4d、深さ50のResNeXtネットワークを表します。

関連作業

マルチブランチ畳み込みネットワーク:開始モデルはマルチブランチの成功した実施形態ですが、各ブランチは特別にカスタマイズされており、より複雑です。ResNetは2ブランチネットワークと見なすこともでき、そのIDマッピングは2番目のブランチと見なすことができます。さらに、深い神経の意思決定の森があります(詳細には理解されていません)。

グループ化された畳み込み(グループ化された畳み込み)グループ畳み込みの最初の使用は、AlexNetの提案にまでさかのぼることができます。作成者のKrizhevskyは、モデルが計算のために2つのGPUに分散されるときに、チャネルを2つの部分に分割します。精度を向上させるためのグループ畳み込みのその後の調査は比較的小規模です。特別なグループ畳み込みは、チャネルごとの畳み込みです。

アンサンブル:独立してトレーニングされた一連のネットワークを集約します。独立してトレーニングされた一連のネットワークの結果を平均化することは、精度を向上させる効果的な方法です。ただし、ResNeXtの各パスはトレーニングに関連付けられているため、アセンブリとは呼ばれません。

原文にも圧縮畳み込みについて記載されていましたが、圧縮畳み込みがどこにあるのかわからなかったので省略しています。

方法

テンプレート

これは、積み重ねられた一連の残留モジュールで構成される高度にモジュール化されたソリューションを採用しており、各モジュールは同じトポロジー構造を持っています。これらのモジュールの設計は、VGG / ResNetsの単純なルールに従います。

  1. 同じ空間サイズのフィーチャマップが生成される場合、モジュールは同じハイパーパラメータ(畳み込みカーネルの幅とサイズ)を持つ必要があります。
  2. 生成されたフィーチャマップの空間サイズが1回縮小(ダウンサンプリング)されるたびに、モジュールの幅(チャネル数/畳み込みカーネル数)が2倍になります。

2番目のルールは、モデルの計算の複雑さを決定します。浮動小数点演算(FLOP)に関しては、各モジュールはほぼ同じです。

したがって、これら2つのルールの下では、テンプレートを設計するだけで、ネットワークアーキテクチャ全体を決定できます。これら2つのルールに従って設計されたResNeXt構造を、次の表に示します。

ここに画像の説明を挿入します

実験

このモデルは、上記の3つの実装方法のうちの3つ、つまりグループ畳み込み法を実際に使用したものです。各ビルディングブロックの後にバッチ正規化(BN)を実行してから、ReLUでフォローアップします。
学習率は無視されます。

カーディナリティと幅

カーディナリティCとボトルネック幅の間のトレードオフが評価されます。実験面では、同じ複雑さでカーディナリティを増やすと、ボトルネック幅を増やすよりも精度が高くなることが示されています。ただし、ボトルネックの幅を小さくしすぎることはできません。少なくとも4にする必要があります。

ここに画像の説明を挿入します

おすすめ

転載: blog.csdn.net/yanghao201607030101/article/details/111997385