CNN 畳み込みニューラル ネットワークの Res2Net および Res2NetPlus

CNN 畳み込みニューラル ネットワークの Res2Net および Res2NetPlus


序文

「Res2Net: 新しいマルチスケール バックボーン アーキテクチャ」
論文アドレス: https://arxiv.org/pdf/1904.01169.pdf

視覚タスクのマルチスケール表現は、物体検出、セマンティック セグメンテーション、および顕著な物体検出タスクにとって非常に重要です。新しい CNN モジュール Res2Net を通じて、以前の優れた CNN バックボーンベースのモデル (ResNet、ResNeXt など) よりも優れたパフォーマンスを達成できます。Res2Net: コンピューティング負荷の増加なし、より強力な特徴抽出機能

Res2Net モジュール

ここに画像の説明を挿入

Dimension カーディナリティと SE ブロックを統合する

この論文で提案する Res2Net モジュールは、ResNet、ResNeXt などの最先端のバックボーン CNN モデルに統合できます。統合モデルはRes2Net、Res2NeXtと呼ばれます。

Res2NeXt と SE ブロックの追加の具体的な実装方法は次のとおりです。
ここに画像の説明を挿入
ここでは、グループ畳み込みを使用して、ResNeXt のベースとなる
CNN 畳み込みニューラル ネットワーク ResNeXt
CNN 畳み込みニューラル ネットワーク SENetを置き換えます。

実験結果

画像分類:
ここに画像の説明を挿入
w はチャネル数、s は分岐数です。モデルの複雑さが増加すると、より複雑になることがわかります。
ここに画像の説明を挿入
ターゲット検出:
ResNet-50 および Res2Net-50 をバックボーンとして使用し、Faster R-CNN ターゲット検出メソッドを使用して、それぞれ PASCAL VOC07 ​​および COCO データセットで、実験結果を次の表に示します。
ここに画像の説明を挿入

さらなる実験結果: https://mmcheng.net/res2net/
コードとモデル: https://github.com/Res2Net/Res2Net-PretrainedModels

Res2NetPlus

出典
Res2Net の公式実装は、多くの点で古い ResNet スタイルで実装されています。そこで誰かがアップグレードを開始しました。

  • アクティベーションには ReLU の代わりに Mish を使用します。

  • 単一の 7x7 コンボリューションである古い ResNet のバックボーンを、3x3 コンボリューション カーネル スタックのバックボーンに変更します。

  • BN -> Activation の順序を逆にして、Activation -> BN になります。

「ReLU の前にバッチ正規化を置くべきではありません。ReLU の非負の応答により、重み層の更新方法が理想的ではなくなるからです...」

コード: https://github.com/lessw2020/res2net-plus

  • ヒント:
    Res2Net の最適な使用方法は、オブジェクト認識とセグメンテーション タイプのタスクに焦点を当てることです。Res2Net は、ミックスアップ、CutMix などの高度なデータ拡張を好みます。これらのツールを使用すると検証損失が大幅に減少することがわかります。そのため、大量のデータの拡張には Res2Net を使用することを強くお勧めします。

短所:
Res2Net は、同等の ResNet と同等の計算複雑性を持っていますが、それでも、対応する ResNet よりも動作が遅くなります (20% が平均のようです)。

前: CNN 畳み込みニューラル ネットワークの ResNeSt

おすすめ

転載: blog.csdn.net/qq_41917697/article/details/122796332