目次
元のリンク: https://arxiv.org/pdf/2007.11824.pdf
コードリンク: GitHub - megvii-model/FunnelAct
要約:我々は、ファンネル アクティベーション (FReLU) と呼ばれる、画像認識タスクのための概念的に単純だが効果的なファネル アクティベーションを提案します。これは、無視できる空間調整オーバーヘッドを追加することで ReLU と PReLU を 2D アクティベーションに拡張します。ReLU と PReLU の形式はそれぞれ y=max(x, 0) と y=max(x, px) ですが、FReLU の形式は y=max(x, T(x)) です。ここで、T( ) は2D 空間条件。さらに、空間条件により、ピクセル レベルのモデリング機能が簡単な方法で可能になり、定期的な畳み込みを通じて複雑な視覚レイアウトがキャプチャされます。私たちは ImageNet、COCO 検出、およびセマンティック セグメンテーション タスクに関する実験を実施し、視覚認識タスクにおける FReLU の大幅な改善と堅牢性を示しました。コードは https://github.com/megvii-model/FunnelAct にあります。
1 はじめに
畳み込みニューラル ネットワーク (CNN) は、画像分類、オブジェクト検出、セマンティック セグメンテーションなど、多くの視覚認識タスクにおいて最先端のパフォーマンスを達成しています。CNN フレームワークで一般化されているように、層の主なタイプの 1 つは畳み込み層であり、もう 1 つは非線形活性化層です。
まず、空間相関を適応的に捕捉することは畳み込み層の課題であり、画像内の局所的なコンテキストを適応的に把握するために、より複雑で効率的な畳み込みにおける多くの進歩が提案されています [7, 18]。これらの進歩は、特に集中的な予測タスク (セマンティック セグメンテーション、オブジェクト検出など) で大きな成功を収めています。より複雑な畳み込み技術の進歩とその非効率的な実装によって、次のような疑問が生じます。通常の畳み込みは、困難で複雑な画像をマスタリングするために同様の精度を達成できるでしょうか?
第 2 に、活性化層は、通常は畳み込み層で空間相関を線形に捕捉した後、スカラー非線形変換として機能します。多くの洞察に満ちたアクティベーションが提案されています [31、14、5、25] が、視覚タスクのパフォーマンスを向上させるのは困難であるため、最も広く使用されているアクティベーションは依然として Rectified Linear Unit (ReLU) [32] です。畳み込み層とアクティベーション層のさまざまな役割から、別の疑問が生じます。ビジョン タスク専用のアクティベーションを設計できるでしょうか?
上記の 2 つの質問に答えるために、シンプルだが効果的な視覚的アクティベーションを定期的な畳み込みと組み合わせることで、密予測と疎予測の両方で大幅な改善を達成できることを示します (画像分類など、図 1 を参照)。これらの結果を達成するために、我々は、視覚作業の大幅な向上を妨げる主要な障壁として、活動における空間的鈍感性を特定し、この障壁を取り除く視覚活動化への新しいアプローチを提案します。この研究では、ReLU と PReLU を 2D 視覚アクティベーションに拡張する、シンプルだが効果的な視覚アクティベーションを提案します。
最新の視覚的タスクのアクティベーションは、空間の鈍感さに対処します。ReLU アクティベーションで一般化されているように、非線形性は手動で設計されたゼロを条件として max() 関数を使用して、つまりスカラー形式: y = max(x, 0) で実行されます。ReLU アクティベーションは、多くの困難なタスクにわたって一貫して最高の精度を達成します。一連の進歩 [31、14、5、25] を通じて、ReLU の多くの亜種はさまざまな方法で条件を変更し、精度を相対的に向上させています。ただし、視覚タスクではさらなる改善が困難です。
Funnel Activation (FReLU) と呼ばれる私たちの方法は、実装が簡単で無視できる計算オーバーヘッドのみを追加する空間条件 (図 2 を参照) を追加することで ReLU/PReLU の精神を拡張します。形式的には、私たちが提案する方法は y = max(x, T(x)) の形式になります。ここで、T(x) は空間コンテキストに対するシンプルで効果的な特徴抽出器を表します。これは、アクティベーションで空間条件を使用することにより、ReLU と PReLU を、ピクセル レベルのモデリング機能を備えた視覚的にパラメータ化された ReLU に拡張するだけです。
私たちが提案する視覚的活性化方法は、効果的ではありますが、より効率的な代替手段です。提案された視覚活性化の有効性を実証するために、分類ネットワーク内の通常の ReLU を置き換え、事前トレーニングされたバックボーンを使用して、他の 2 つの基本的な視覚タスク (物体検出とセマンティック セグメンテーション) に対する一般性を示します。結果は、FReLU が単一タスクのパフォーマンスを向上させるだけでなく、他の視覚タスクにもうまく移行できることを示しています。
2 関連作品
スカラー アクティベーション:スカラー アクティベーションは、y=f(x) の形式で、単一の入力と単一の出力を持つアクティベーションです。修正線形単位 (ReLU) は、さまざまなタスクで最も広く使用されているスカラー アクティベーションであり、y = max(x, 0) の形式です。さまざまなタスクやデータセットにシンプルかつ効果的です。ネガティブな部分を修正するために、Leaky ReLU、PReLU、ELU などの多くのバリアントが提案されています。これらは、ポジティブ部分の同一性を保持し、ネガティブ部分をサンプルに適応的に依存させます。
シグモイド非線形性などの他のスカラー法は、Tanh(x)=2σ(2x)−1 の形式の Tanh 非線形性を持ちます。これらのアクティベーションは、主にディープ ニューラル ネットワークでは広く使用されていません。これは主に、飽和してデッド勾配を無効にし、高価な勾配も必要となるためです。演算(指数関数など)。
[25, 39, 1, 16, 35, 10, 46] 多くの進歩が続き、最近の検索技術は、単項関数と二項関数のセットを組み合わせることにより、Swish と呼ばれる新しい検索スカラー アクティベーションにつながりました。y=x∗ の形式の Sigmoid(x) は、一部の構造およびデータセットで他のスカラー アクティベーションよりも優れたパフォーマンスを示し、多くの検索結果で大きな可能性が示されています。
コンテキスト条件付きアクティベーション:ニューロン自体のみに依存するスカラー アクティベーションに加え、条件付きアクティベーションは、コンテキスト情報によって条件付けされたニューロンをアクティブにする多対 1 関数です。代表的な手法は階層を複数の枝に展開し最大値を選択する Maxout [12] である。ほとんどのアクティベーションでは、重みとデータの間の線形内積に非線形性が適用されます。つまり、。Maxout 計算、ReLU と Leaky ReLU を同じフレームワークに一般化します。ドロップアウトにより、Maxout ネットワークは改善を示します。ただし、パラメーターの数や積和演算が増加するため、複雑さが増しすぎます。
コンテキスト ゲーティング手法では、コンテキスト情報を使用して効率を向上させます。特に RNN ベースの手法では、特徴量の次元が比較的小さいためです。CNN ベースの方法 [34] もあり、これは 2D 特徴サイズの次元が大きいため、特徴削減後に使用されます。
コンテキストによるアクティベーションは通常、チャネルごとに行われます。ただし、この論文では、非線形活性化関数では空間相関も重要であることを示します。余分な複雑さを軽減するために、軽量の CNN 技術である深さ方向の分離可能な畳み込みを使用します。
空間依存性モデリング:より適切な空間相関を学習することは課題であり、一部の方法では、さまざまな形状の畳み込みカーネル [41、42、40] を使用して、さまざまな範囲の空間依存性を集約します。ただし、複数の分岐が必要になるため、効率が低下します。縮小畳み込み [18] や拡張畳み込み [47] などの畳み込みカーネルの進歩も、受容野を増加させることでパフォーマンスを向上させます。
STN [22]、Active Convolution [24]、Deformable Convolution [7] など、別のクラスのメソッドは空間相関を適応的に学習します。これらの方法は、空間変換を適応的に使用して、特に密集視覚タスク (物体検出、セマンティック セグメンテーションなど) の短距離相関を精緻化します。私たちの単純な FReLU は、複雑な畳み込みを行わなくても、それらよりも優れたパフォーマンスを発揮します。
さらに、非ローカル ネットワークは、リモートの依存関係をキャプチャしてこの問題を解決する方法を提供します。GCNet [3] は、空間グローバル コンテキストをより適切に使用するための空間アテンション メカニズムを提供します。リモート モデリングのアプローチではパフォーマンスが向上しますが、元のネットワーク構造にブロックを追加する必要があるため、効率が低下します。私たちの方法は、非線形活性化におけるこの問題に、より適切かつ効率的に対処します。
受容野:受容野の面積とサイズは、視覚認識タスクにおいて重要です [50、33]。有効受容野に関する研究 [29、11] では、異なるピクセルの寄与が等しくなく、中央のピクセルの影響がより大きいことがわかりました。したがって、適応的な受容野を実現するために多くの方法が提案されています[7、51、49]。これらの方法は、アーキテクチャに追加のブランチ (より複雑な畳み込みの開発や注意メカニズムの活用など) を導入することで、適応的な受容野を実現し、パフォーマンスを向上させます。私たちの方法でも同じ目標を達成しますが、非線形活性化に受容野を導入することにより、より単純かつ効率的な方法で実現します。より適応性の高い受容野を使用することで、一般的な複雑な形状のレイアウトを近似できるため、効率的な規則的な畳み込みを使用することで、複雑な畳み込みよりも優れた結果が得られます。
3 ファネルの活性化
FReLU はビジョン タスク用に特別に設計されており、概念的にシンプルです。ReLU は手動で設計されたゼロに条件付けされ、PReLU はパラメータ px に条件付けされます。このため、空間コンテキストに応じて 2D ファンネルのような条件に変更します。視覚的な条件は、オブジェクトの微細な空間レイアウトを抽出するのに役立ちます。次に、ファネル条件やピクセルごとのモデリング機能など、FReLU の重要な要素を紹介します。これらは、ReLU とそのバリアントに欠けている主な部分です。
ReLU:まず、ReLU アクティベーションについて簡単に説明します。max(x, 0) の形式の ReLU は、非線形性として max( ) を使用し、条件として手動で設計されたゼロを使用します。非線形変換は、畳み込みや全結合層などの線形変換を補完します。
PReLU: ReLU の高度なバリアントとして、PReLU は元の形式 max(x, 0) + p min(x, 1) を持ちます。ここで、p は学習可能なパラメーターであり、0.25 に初期化されます。ただし、ほとんどの場合 p<1 であるため、この仮定の下では max(x,px),(p<1) のように書き換えます。p はチャネル方向パラメータであるため、バイアス項に関係なく、1x1 の深さ方向の畳み込みとして解釈できます。
ファネル条件: FReLU は単純な非線形関数と同じ max( ) を採用します。条件部分については、FReLU は各ピクセルの空間コンテキストに応じて 2D 条件に拡張します (図 2 を参照)。これは、ピクセル自体 ([31, 14] など) やチャネル コンテキスト ([12] など) を条件とする最先端の方法とは異なります。私たちの方法は ReLU の精神に従い、max( ) を使用して x と条件の間の最大値を取得します。
形式的には、ファネル条件を T(x) として定義します。空間調整を実現するには、パラメーター プーリング ウィンドウを使用して空間依存関係を作成します。具体的には、アクティベーション関数を定義します。
ここで、 は2次元空間の位置 (i, j) にある c 番目のチャネル上の非線形アクティベーション f( ) の入力ピクセルです。関数 T( ) はファンネル条件を表し、,同じチャネルで共有されるこのウィンドウの係数を示します。(・) はドット積を表します。
ピクセル単位のモデリング能力:ファネル条件の定義により、ネットワークは各ピクセルで非線形活性化の空間条件を生成できます。ネットワークは非線形変換を受け、同時に空間依存関係を作成します。これは、畳み込み層で空間依存関係を作成し、非線形変換を個別に実行する一般的な方法とは異なります。この場合、アクティベーションは空間条件に明示的に依存しません。この場合、ファネル条件下では空間条件に依存します。
したがって、ピクセルごとの条件により、ネットワークはピクセルごとにモデル化することができ、関数 max( ) は各ピクセルに空間コンテキストを調べるかどうかの選択を提供します。形式的には、n 個の FReLU 層を備えたネットワーク {F1、F2、...、Fn} を考えます。各 FReLU 層 Fi には k×k のパラメーター ウィンドウがあります。簡潔にするために、FReLU 層のみを分析し、畳み込み層は無視します。1×1 と k×k の間の最大の選択により、F1 の後の各ピクセルにはアクティベーション ファイル セット {1, 1+r} (r=k−1) が含まれます。Fn 層の後のセットは {1, 1 になります。 +r, 1+2r, ..., 1+nr}。これにより、ピクセルごとの選択肢が増え、n が十分に大きい場合は任意のレイアウトに近似できます。さまざまなサイズのフィールドをアクティブにすることで、さまざまなサイズの正方形を斜線や円弧の形状に近づけることができます (図 3 を参照)。画像内のオブジェクトのレイアウトは通常、水平または垂直ではなく、斜線または円弧の形状であることがわかっています。そのため、オブジェクトの空間構造の抽出は、提供されているピクセルごとのモデリング機能によって自然に解決できます。空間条件によって。複雑なタスクにおける不規則で詳細なオブジェクト レイアウトをより適切に捕捉できることが実験的に示されています (図 4 を参照)。
3.1 実装の詳細
私たちが提案する変更は単純です。手動で設計した条件を回避し、それをシンプルで効率的な空間的な 2 次元条件に置き換えます。図 1 に示すように、視覚的なアクティブ化により大幅な改善がもたらされました。まず、ImageNet データセットの分類タスクで ReLU アクティベーションを変更します。ResNet を分類ネットワークとして使用し、事前トレーニングされたネットワークを他のタスク (オブジェクト検出やセマンティック セグメンテーション) のバックボーンとして使用します。
同じチャネル内のすべての領域は同じ係数を持つため、パラメータを少し増やすだけで済みます。で示される領域はスライディング ウィンドウで、そのサイズはデフォルトで 3 × 3 の正方形に設定されており、2 次元のパディングを 1 に設定します。この場合、
パラメータの初期化: ガウス初期化を使用してハイパーパラメータを初期化します。結果として、ゼロに近い条件値が得られますが、これは起点ネットワークの性質を大きく変えるものではありません。また、パラメータ(最大プーリング、平均プーリングなど)のないケースも検討しましたが、これでは改善が見られませんでした。これは、追加パラメータの重要性を示しています。
パラメーターの計算: 畳み込みがあり、入力特徴サイズが C × H × W 入力、出力サイズが であると仮定すると、計算されるパラメーターの数は、FLOP (浮動小数点演算) は です。この目的を達成するために、ウィンドウが 、追加パラメータの数が、追加の FLOP の数が のファンネル条件を追加しました。簡単にするために、次のように仮定します。
したがって、パラメータを採用した後の元の複雑度はFReLU となり、視覚的アクティベーションを採用した後のFLOP の元の複雑度は になります。通常、とよりもはるかに大きいため、余分な複雑さは無視できます。実際、追加部分 (詳細については表 1 を参照) は無視できます。さらに、ファネル条件はのスライディング ウィンドウであり、高度に最適化された深さ方向の分離可能な畳み込み演算子と BN [21] 層を使用して実装します。
4 実験
4.1 画像の分類
視覚的活性化の有効性を評価するために、まず、128 万枚のトレーニング画像と 50K の検証画像を含む ImageNet 2012 分類データセット [9, 37] で実験を行います。
元の CNN 構造の ReLU を変更するだけで、視覚的なアクティベーションがネットワーク構造に簡単に適用されます。さまざまなサイズの ResNet 上のアクティベーションが最初に評価されます [15]。ネットワーク構造は独自の実装を採用しました。特に空間依存性が重要な浅層では、入力サイズが 224 × 224 と小さいため、特徴マップ サイズが小さい 7 × 7 の最後のステージを除くすべてのステージで ReLU を置き換えます。トレーニング設定では、256,600k 反復のバッチ サイズ、線形減衰スケジュールによる学習率 0.1、重み減衰 1e−4、およびドロップアウト [17] 率 0.1 を使用します。検証セットのトップ 1 エラー率を示します。公平に比較するために、すべての結果を同じコードベースで実行します。
スカラーアクティベーションとの比較: 異なる深さの深層残差ネットワーク [15] (例: ResNet-50、ResNet-101) の包括的な比較を実行します。ReLU をベースラインとして採用し、比較のためにそのバリアントの 1 つである PReLU を採用します。さらに、我々の視覚的アクティベーションを、NAS [52, 53] 技術 Swish [36] によって検索されたアクティベーションと比較します。多くのスカラー アクティベーションと比較して、Swish はさまざまなモデル構造にプラスの影響を与えることが示されています。
表 1 の比較結果は、追加の複雑さが無視できる程度であるにもかかわらず、視覚的アクティベーションが依然としてすべてを上回っていることを示しています。視覚的なアクティベーションにより、ResNet-50 と ResNet-101 でトップ 1 の精度がそれぞれ 1.6% と 0.7% 向上しました。特に、他のスカラー アクティベーションは、モデル サイズとモデルの深さが増加するにつれて限定的な改善を示しますが、ビジュアル アクティベーションは依然として大幅な向上を示しています。たとえば、Swish と PReLU では精度が 0.1% 向上しますが、ビジュアル アクティベーションは ResNet-101 で依然として 0.7% 大幅に向上します。
軽量 CNN での比較: 深層畳み込みニューラル ネットワークに加えて、MobileNets [19] や ShuffleNets [30] などの最近の軽量畳み込みニューラル ネットワーク上の他の効率的なアクティベーションと視覚アクティベーションも比較します。[30] と同じトレーニング設定を使用します。モデルのサイズは非常に小さいため、余分なパラメータを減らすために 1 × 3 + 3 × 1 のウィンドウ サイズを採用しています。さらに、MobileNet では、モデルの複雑さを維持するために幅の乗数を 0.75 から 0.73 まで微調整します。表 2 は、ImageNet データセットでの比較結果を示しています。視覚的なアクティベーションにより、軽量 CNN の精度も向上します。ShuffleNetV2 0.5 × は、少量の FLOP を追加するだけで、トップ 1 の精度を 2.5% 向上させることができます。
4.2 物体の検出
さまざまなタスクにおける視覚アクティベーションの汎化パフォーマンスを評価するために、COCO データセットでオブジェクト検出実験を実施します。COCO データセットには 80 のオブジェクト カテゴリがあります。トレーニングには trainval35k セットを使用し、テストには minival セットを使用します。
Retina Net [27] 検出器での結果を紹介します。公平に比較するために、すべてのモデルを同じコードベースで同じ設定でトレーニングします。バッチ サイズ 2、重み減衰 1e − 4、運動量 0.9 を使用します。3 つのスケールと 3 つのアスペクト比のアンカーを使用し、600 ピクセルのトレーニングおよびテスト画像スケールを使用します。バックボーンについては、セクション 4.1 の事前トレーニング済みモデルを特徴抽出器として使用し、異なるアクティベーション間の一般性を比較します。
表 3 は、さまざまなアクティベーション間の比較を示しています。比較すると、視覚活性化は ReLU バックボーンに対して 1.4% m AP、Swish バックボーンに対して 0.8% m AP 増加したことがわかりました。FRe-LU は、小、中、大のすべてのオブジェクトにおいて他のものよりも大幅に優れたパフォーマンスを発揮することは注目に値します。
軽量 CNN での比較も示します。ResNet-50 との比較として、さまざまなアクティベーションを備えた事前トレーニング済みの ShuffleNetV2 スケルトンを使用します。主に FReLU と ReLU および Swish の効率的な活性化を比較します [36]。表 3 からわかるように、視覚的アクティベーションの効果も、ReLU および Swish バックボーンの効果よりもはるかに優れており、mAP がそれぞれ 1.1% および 0.8% 向上します。また、あらゆるサイズのオブジェクトのパフォーマンスも向上します。
4.3 セマンティックセグメンテーション
さらに、都市景観データセットに対するセマンティック セグメンテーションの結果を実証します [6]。このデータセットは、19 のカテゴリを含むセマンティックな都市シーンを理解するデータセットです。細かく注釈が付けられた画像が 5000 枚あり、そのうち 2975 枚がトレーニング用、500 枚が検証用、1525 枚がテスト用です。
セグメンテーション フレームワークとして PSPNet [48] を使用し、トレーニング設定にはベース 0.01、べき乗 0.9 のポリ学習率戦略 [4] を使用し、重み減衰 1e − 4 を使用し、 2 の 8 GPU のバッチ サイズ。
セクション 4.1 で以前の事前トレーニング済みモデルの一般化可能性を評価するために、さまざまな活性化を備えた事前トレーニング済み Res Net-50 [15] バックボーン モデルを使用し、FRe LU を Swish および Re LU とそれぞれ比較します。
表 4 に、スカラー アクティベーションとの比較を示します。結果から、視覚的アクティベーションが ReLU と検索 Swish をそれぞれ 1.7% と 1.4% 上回っていることがわかります。さらに、視覚的なアクティベーションは、特に「電車」、「バス」、「壁」などのカテゴリで、大きなオブジェクトと小さなオブジェクトの両方で大幅に向上します。
パフォーマンスの向上をよりわかりやすく視覚化するために、図 4 にテスト データセットの予測結果を示します。主鎖の活性化エネルギーのみを変更することで結果が大幅に改善されることを示しました。大域領域と詳細領域の両方を処理できるピクセル レベルのモデリング機能により、大きなオブジェクトと小さなオブジェクトの両方の境界が適切にセグメント化されます (図 3 を参照)。最新の認識フレームワークはすべて ReLU アクティベーションを使用して適切に設計されているため、視覚的なアクティベーションには結果をさらに改善する大きな可能性がまだ残っていることに注意してください。これについては、この研究の焦点を超えています。
5 ディスカッション
前のセクションでは、他の効果的なアクティベーションと比較して最高のパフォーマンスを示しました。私たちの視覚活動をさらに調査するために、カテーテルアブレーション研究を実施しました。まず視覚的アクティベーションの性質について説明し、次に既存の方法との互換性について説明します。
5.1 プロパティ
ファンネルのアクティベーションには、1) ファンネルの条件、2) max( ) の非線形性という 2 つの主なコンポーネントがあります。各成分の効果を個別に調べました。
空間条件におけるアブレーション: まず、空間条件に対するさまざまなアプローチを比較します。使用したパラメーター プーリング方法に加えて、追加パラメーターの重要性を調べるために、追加パラメーターを使用しない他のプーリング方法 (最大プーリングと平均プーリング) を比較しました。パラメトリック プーリングを他の 2 つの非パラメトリック アプローチに置き換えて、ImageNet データセットで評価するだけです。
表 5 (A、B、C) は、パラメータプーリングの重要性を示しています。パラメータを追加しないと、結果として得られるトップ 1 の精度は 2% 以上低下し、空間条件がない場合のベースラインよりもさらに悪くなります。表 6 は、空間条件後のさまざまな正規化の比較を示しています。
非線形性のアブレーション: 次に、非線形性の使用も比較します。私たちのメソッドでは、max( ) 関数を使用して、視覚的な依存関係をキャプチャしながら非線形性を強制します。対照的に、視覚的な依存性と非線形性を別々に捕捉する方法と比較します。
空間コンテキストのキャプチャには、2 つのアプローチを採用します。1) 前述したようにパラメーター プーリングを使用し、元の特徴で線形に追加します。2) 単純に深さ方向に分離可能な畳み込み層を追加します。非線形変換には ReLU 関数を使用します。表 5 (A、D、E) は結果を報告しています。空間コンテキスト自体は、ベースラインと比較して精度を約 0.3% 向上させますが、この方法では非線形条件として精度がさらに 1% 以上向上します。したがって、空間相関と非線形性を別々に扱うことは、それらを一緒に扱うことほど望ましいことではありません。
ウィンドウ サイズのアブレーション: パラメーター化されたプーリング ウィンドウでは、ウィンドウのサイズによって各ピクセルがどのように見える領域のサイズが決まります。ファネル条件でウィンドウ サイズを変更し、{1 × 1、3 × 3、5 × 5、7 × 7} の異なるサイズのケースを比較するだけです。1×1の場合はパラメータの値が1未満なので空間条件はありません、PReLUの場合となります。比較結果を表7に示す。3 × 3 が最良の選択であると結論付けられます。ウィンドウ サイズを大きくしても利点はありましたが、3×3 を超えることはありませんでした。
さらに、正方形の代わりに不規則なウィンドウが使用される場合を考えます。1×3と3×1のサイズの複数のウィンドウを使用し、それらの合計と最大値を条件とします。比較のための表 7 { B、E、F }。結果は、不規則なウィンドウ サイズでも、より柔軟なピクセル モデリング機能により最高のパフォーマンスが得られることを示しています (図 3)。
5.2 既存の手法との互換性
新しいアクティベーションを畳み込みネットワークに適用するには、どの層を使用するか、どのステージを使用するかを選択する必要があります。また、SENetなどの既存の有効な手法との互換性も検討します。
異なる畳み込み層との互換性: まず、異なる畳み込み層の後の位置を比較します。それは、1 × 1 および 3 × 3 の畳み込み後のさまざまな位置での FRe LU の影響を調べることです。ResNet-50 [15] と ShuffleNetV2 [30] で実験を行っています。1 × 1 畳み込みと 3 × 3 畳み込みの後に ReLU を置き換えて、改善を観察します。表 8 は、上記 2 つのネットワークのボトルネックにおける結果を示しています。結果から、さまざまなレイヤーでの改善は同等であり、両方を使用した場合に最適なパフォーマンスが得られることがわかります。
さまざまなステージとの互換性: 次に、CNN 構造内のさまざまなステージの互換性を研究します。特に空間次元が高いレイヤーでは、視覚的なアクティベーションが非常に重要です。大きく浅い空間次元と深いチャネル次元を備えた分類ネットワークの場合、さまざまな段階で視覚的アクティベーションを課す際に違いが生じる可能性があります。224x224 入力を備えた ResNet-50 ステージ 5 の場合、その 7x7 フィーチャ サイズは比較的小さく、主に空間依存性ではなくチャネル依存性を含みます。したがって、表 9 に示すように、ResNet-50 のステージ {2-4} で視覚的なアクティベーションを採用します。その結果、浅い層を採用した場合の効果は大きく、深い層を採用した場合の効果は小さいことがわかりました。そして、それらすべてにFRe LUを採用することで、トップ1の精度を誇ります。
SENet との互換性: 最後に、SENet [20] とのパフォーマンス比較を実行し、その互換性を示します。従来の畳み込み層と組み合わせることで、CNN アーキテクチャの複雑な進歩を必要とせずに、3 つのビジョン タスクすべてで大幅な改善を実現します。SENet は最も最近効果的なアテンション モジュールの 1 つであるため、視覚的アクティベーションを、最近効果的なアテンション モジュールである SENet とさらに比較します。
表 10 に結果を示します。SENet はモデルの容量を増やすために追加のブロックを使用しますが、単純な視覚的アクティベーションが SENet よりも優れたパフォーマンスを発揮することは注目に値します。また、私たちが提案する視覚的アクティベーションが SE モジュールなどの他の技術と共存できることを期待しています。過学習を避けるために、ResNet-50 の最終段階で SE モジュールを採用しています。表 10 には、FReLU モジュールと SE モジュールの共存も示されています。SENet と併用すると、ファネルのアクティベーションにより精度がさらに 0.3% 向上します。
6 結論
この研究では、ピクセルレベルのモデリング機能を使用して複雑なレイアウトを簡単にキャプチャする、ビジョンタスク用に特別に設計されたファネルアクティベーションを提案します。私たちの方法はシンプルかつ効果的であり、他の技術との互換性が高く、画像認識タスクに新しい代替アクティベーションを提供します。ReLU は非常に影響力があり、多くの高度なアーキテクチャが ReLU 用に設計されていますが、その設定はファネルのアクティベーションに最適ではない可能性があることに注意してください。したがって、さらなる改善の可能性がまだ大きく残されています。
7コアコード
class FReLU(M.Module):
r""" FReLU formulation. The funnel condition has a window size of kxk. (k=3 by default)
"""
def __init__(self, in_channels):
super().__init__()
self.conv_frelu = M.Conv2d(in_channels, in_channels, 3, 1, 1, groups=in_channels)
self.bn_frelu = M.BatchNorm2d(in_channels)
def forward(self, x):
x1 = self.conv_frelu(x)
x1 = self.bn_frelu(x1)
x = F.maximum(x, x1)
return x