高周波成分は畳み込みニューラルネットワークの一般化を説明するのに役立つ
公式アカウント:EDPJ
目次
0. 概要
私たちは、画像データの周波数スペクトルと畳み込みニューラル ネットワーク (CNN) の汎化動作との関係を研究します。私たちは最初に、画像の高周波成分をキャプチャする CNN の能力に気づきました。これらの高周波成分は人間にはほとんど知覚されません。したがって、観察は、敵対的な例の潜在的な説明、CNN の堅牢性と精度の間のトレードオフの議論、トレーニング ヒューリスティックを理解するための証拠など、CNN の一般化動作に関連する複数の仮説につながります。
1 はじめに
ディープラーニングは、さまざまなタスクの予測モデリングにおいて最近多くの進歩を遂げてきましたが、人々は依然として、ラベルをシャッフルしたデータを記憶したり、敵対的な例をペアにしたりする機能など、ニューラル ネットワークの直感的ではない一般化動作にショックを受けています。
ニューラル ネットワークの汎化動作を説明するために、確率的勾配降下の特性、さまざまな複雑さの尺度、汎化ギャップ、およびさまざまなモデルやアルゴリズムからのより多くの視点の研究を含む、多くの理論的なブレークスルーが徐々に行われてきました。
この論文では、畳み込みニューラル ネットワーク (CNN) がクラッター信号と表面信号の両方から学習できるというこれまでの理解に触発され、データの観点から CNN の汎化動作を研究します。[27] と同様に、CNN の非直感的な一般化動作は人間とモデルの間の知覚の違いの直接の結果であると主張します (図 1 に示すように)。CNN は人間よりも高い粒度でデータを表示できます。
ただし、[27] とは異なり、モデルの知覚について非常に詳細な解釈を提供します。CNN は、人間には知覚できない高周波画像コンポーネントを利用できます。
たとえば、図 2 は、CIFAR10 データセットからの 8 つのテスト サンプルの予測結果と、対応する高周波成分と低周波成分の予測結果を示しています。これらの例では、予測結果はほぼ完全に、人間にはほとんど知覚できない画像の高周波成分によって決まります。一方、人間にとって低周波成分は元の画像とほぼ同じに見えますが、モデルによっては大きく異なるものとして予測されます。
上記の経験的観察に触発されて、我々は CNN の一般化動作をさらに調査し、入力画像スペクトルに対する差分応答を通じてそのような動作を説明することを試みます (注 1 )。私たちの主な貢献は次のように要約されます。
- CNN が画像の高周波成分を利用して精度と堅牢性を引き換えにする方法の例を示すことで、CNN の精度と堅牢性の間の既存のトレードオフに光を当てます (系 1)。
- 画像スペクトルをツールとして使用して、CNN のいくつかの一般化動作、特にデータをシャッフルするためのラベルを記憶する機能を説明する仮説を提供します。
- 私たちが提案する防御方法は、モデルのトレーニングや微調整を行わなくても、単純な攻撃に対する CNN の敵対的堅牢性を向上させるのに役立ちます。
2.関連作品
深層学習の驚異的な成功により、CNN 一般化の謎を説明することに専念する大量の理論的研究が集まりました。
- Zhang らが、いくつかの成功したニューラル ネットワーク アーキテクチャの有効容量がランダムなラベルを記憶するのに十分であることを実証して以来、この明らかな「パラドックス」に関する多くの議論が盛んに行われてきました。
- Arpitらは、トレーニングデータが主にメモリを決定するため、勾配ベースの手法でトレーニングされたディープネットワークの一般化パフォーマンスを有効容量で説明できない可能性が高いことを示しています。
- Kruger らによって、ディープ ネットワークのランダム ラベルでトレーニングした場合にヘシアン固有値が最大に増加することが示され、経験的に実証されました。
敵対的な例の概念は、ニューラル ネットワークの動作に関連する別の興味深い方向性として浮上しました。これに沿って、研究者たちは、FGSM、PGD、その他多くのモデルをだますための強力な方法 (攻撃方法と呼ばれます) を発明してきました。モデルをなりすましから保護するために、別の研究者グループがさまざまな方法 (防御方法と呼ばれます) を提案しました。これらは、提案された攻撃および防御方法の長い歴史からのハイライトのほんの一部です。詳細な議論は一般的なレビューに記載されています。
ただし、これらの方法では堅牢性が向上する一方で、予測精度がわずかに低下する可能性があり、これが堅牢性と精度の間のトレードオフに関する別の議論につながります。いくつかの経験的結果は、生成された敵対的な例では正確なモデルがより堅牢になる傾向があることを示しています。追加の研究では、堅牢性の向上は主に精度の向上によるものであるが、より正確なモデル (VGG、ResNet など) は実際には AlexNet よりも堅牢性が低いと主張しています。
3. 高周波成分と CNN の一般化
まず、この論文で使用する基本的な表記法を設定します。<x,y> はデータ サンプル (画像と対応するラベル) を示します。f(・;θ) は、パラメータが θ で示される畳み込みニューラル ネットワークを表します。H を使用して人間モデルを表すため、f(·;H) は人間がデータを分類する方法を示します。l(・,・)は、一般的な損失関数(例えば、クロスエントロピー損失)を示します。α(・,・)は、予測精度を評価する関数を表します(サンプルごとに、この関数はサンプルが正しく分類されている場合は1.0、そうでない場合は0.0を生成します)。d(・,・) は、2 つのベクトル間の距離を評価する関数を表します。F( ) はフーリエ変換を示し、したがって F^(-1) ( ) は逆フーリエ変換を示します。サンプルの周波数成分を表すために z を使用します。したがって、z = F(x) および x = F^(−1) (z) となります。
フーリエ変換またはその逆変換では複素数が導入される場合があることに注意してください。この論文では、F^(−1) ( ) の結果の虚数部を単純に破棄して、結果の画像を通常どおり CNN に入力できるようにします。
3.1 CNN は高周波成分を使用します
元のデータ x = {x_l, x_h} を分解します。ここで、x_l と x_h は、 x の低周波成分 ( LFCと略記) と高周波成分 ( HFCと略記) を示します。次の 4 つの方程式があります。
ここで、 t( ; r) は、ハイパーパラメータ半径 r に従って z から低周波成分と高周波成分を分離する閾値関数を示します。
t( ; r) を正式に定義するには、最初に、N 個の可能なピクセル値を持つ、サイズ n × n のグレースケール (シングル チャネル) 画像 (つまり、x ∈ N^(n×n)) を考慮します。 z ∈ C^(n×n) が得られます。ここで、C は複素数を表します。z(i, j) を使用して位置 (i, j) の z の値にインデックスを付け、c_i、c_j を使用して重心を示します。方程式 z_l, z_h = t(z; r) を次のように正式に定義します。
本稿では t(・;r) における d(・,・) をユークリッド距離とみなす。x に複数のチャネルがある場合、パスはピクセルの各チャネルで独立して動作します。
備考1.(仮定 1, A1 ) 「人間が認識できるのは x_l のみですが、x_l と x_h は両方とも CNN が認識できる」と仮定すると、次のようになります。
しかし、CNN が次のようにトレーニングされると、
に相当
CNN は、損失を最小限に抑えるために x_h を使用することを学習する可能性があります。したがって、CNN の汎化動作は人間にとって直観的ではありません。
「CNN は x_h を悪用することを学習する可能性がある」は「CNN のオーバーフィット」と同じではないことに注意してください。x_h にはサンプル固有の特異性よりも多くの情報が含まれる可能性があり、このより多くの情報はトレーニング、検証、テスト セット全体で一般化できるためです。それを認識することができません。
仮説 A1 はいくつかのケース (たとえば図 2) で成り立つことが証明されているため、注釈 1 は CNN の一般化動作の説明の 1 つとして機能すると考えられます。たとえば、敵対的な例は、x_h を摂動させることによって生成できます。ラベル シャッフルされたデータのトレーニング エラーをゼロに減らす CNN の能力は、x_h を悪用し、サンプル固有の特異性を過剰適合した結果であると見ることができます。次のセクションでさらに詳しく説明します。
3.2 堅牢性と精度のトレードオフ
注釈 1を続けて、画像周波数の観点から、特定の θ に対する CNN の堅牢性と精度の間のトレードオフについて説明します。まず、θ の精度を形式的に次のように定式化します。
θ の敵対的ロバスト性は次のように表されます。
ここで、ε は許容摂動の上限です。
別の仮定(略してA2 ): モデル θ の場合、次のようなサンプル <x,y> が存在します。
主な議論 (注釈 1 ) を正式なステートメントに拡張できます。
帰結1.仮定 A1 と A2 の下では、サンプル <x, y> があり、任意の距離測定値 d( , ) と境界 ε について、ε ≥ d(x, x_l) である限り、モデル θ は正確ではありません (式 1 による) 1.0) でロバストに予測します (式 2 による 1.0)。
証明は前の議論の直接的な結果であるため、省略します。仮説 A2 は経験的に検証することもできるので (たとえば、図 2)、系 1 が CNN の堅牢性と精度の間のトレードオフの説明の 1 つである可能性があると安全に断言できます。
4. 一般化を再考する前にデータを再考する
4.1 前提条件
私たちの最初の目標は、ニューラル ネットワークがラベル スクランブル データに簡単に適合できるという観察された経験的結果について直感的な説明を提供することです。ニューラル ネットワークがその能力によりデータを記憶できることに疑いの余地はありませんが、興味深い疑問が生じます。「ニューラル ネットワークがデータを簡単に記憶できるのであれば、なぜニューラル ネットワークはデータを削減するためにすべてを直接記憶するのではなく、データから一般化可能なパターンを学習することにこだわるのでしょうか。トレーニングのロス?」
注 1 で紹介したアイデアの中で、私たちの仮定は次のとおりです。結果はトレーニング損失の最小化と同じですが、モデルは 2 つのケースで異なるレベルの特徴を考慮します。
- 元のラベルの場合、モデルは最初に低周波成分 (LFC) に焦点を当て、次に徐々に高周波成分 (HFC) に焦点を当てて、より高いトレーニング精度を実現します。
- ラベルシャッフルの場合、シャッフルによりLFCとラベルの関連性がなくなるため、モデルはLFCとHFCを同等に扱う場合の画像を記憶する必要がある。
4.2 実験
私たちは仮説を検証するために実験を設定しました。CIFAR10 データセットの ResNet-18 を基本実験として使用します。このペーパーの残りの部分で使用する一般的なセットアップは、学習率を 10^(−4) に設定し、バッチ サイズを 100 に設定し、Xavier を使用して初期化された重みを使用して、Adam オプティマイザーを使用して 100 エポックの実験を実行することです。初期化。ピクセルはすべて [0, 1] に正規化されます。これらすべての実験は、MNIST、FashionMNIST、および ImageNet のサブセットで繰り返されました。これらの取り組みは付録で報告されています。ナチュラル ラベル設定とシャッフル ラベル設定を使用して、それぞれ M_natural と M_shuffle と呼ばれる 2 つのモデルをトレーニングします。M_shuffle は、同等のトレーニング精度を達成するために 300 エポックを必要とします。情報のどの部分がモデルによって抽出されるかをテストするために、トレーニング セット内の任意の x について、低周波成分 x_l を生成します。ここで、r はそれぞれ 4、8、12、16 に設定されます。これらの低周波データセットのトレーニング精度がトレーニング中にどのように変化するかをテストしました。
結果を図 3 にプロットします。
- 最初のメッセージは、同じトレーニング精度 (300 エポックと 100 エポック) を達成するには、M_shuffle の方が M_natural よりもトレーニングに時間がかかるということで、サンプルを記憶することが、一般化可能なパターンの動作を学習することに比べて「不自然」であることを示唆しています。
- 低周波トレーニング サンプルの曲線を比較すると、M_natural が M_shuffle よりも多くの低周波パターンを学習することがわかります (つまり、r が 4 または 8 の場合)。
- さらに、r = 4 の場合、M_shuffle は LFC をほとんど学習しませんが、一方、r = 4 の場合、最初のエポックであっても、M_natural は正しい LFC の約 40% を学習しています。この違いは、M_natural が LFC を選択することを好むのに対し、M_shuffle は LFC と HFC の間で好みがないことを示しています。
モデルが複数の異なる信号セットを利用できる場合、なぜ M_natural は人間の知覚の好みとたまたま一致する LFC を学習することを好むのでしょうか? ニューラル ネットワークはより単純な特徴を好む傾向があるという説明もありますが、これは単純に、データセットが人間によって整理され、注釈が付けられているため、LFC とラベルの組み合わせの方が HFC とラベルの組み合わせよりも「一般的」であるためであると推測しています。 - ラベルの組み合わせは、特にトレーニングの初期段階で最も急激な損失の低下につながります。
この推測をテストするために、M_natural の実験を繰り返しますが、元のトレーニング セットの代わりに x_l または x_h (標準ピクセル スケールに正規化された) を使用し、モデルが元のテスト セットでどのように動作するかをテストします。表 1 は、LFC が HFC よりも「一般化」していることを示しています。したがって、モデルが最初に LFC を選択しても、それが損失の急激な低下につながるため、驚くべきことではありません。
4.3 残された課題
最後に、LFC におけるネットワークの好みと人間が認識する好みの一致は、多くのテクノロジーが最先端のはしごを登る際に発明した「生存バイアス」の単純な結果である可能性があるという疑問を提起したいと思います。言い換えれば、ニューラル ネットワークの 100 年近くにわたる進化は、テクノロジーの「自然選択」のようなものです。生き残るアイデアは、人間の好みにぴったりである場合もあれば、はしごの登りが下手で出版されない場合もあります。
しかし、興味深い疑問は、これらのはしごを登る技術が人間の視覚的好みとどの程度一致しているかということです。当社では、周波数ツールを使用してこれらの手法を評価することを提案しています。
5. トレーニングヒューリスティック
私たちは、最先端の精度のはしごを登るのに役立つヒューリスティックの再評価を続けています。これらのヒューリスティックを評価して、LFC および HFC に対する汎化パフォーマンスをテストします。精度ラダーにおける多くのよく知られた技術は、多かれ少なかれ HFC を利用しているようです。
5.1 さまざまなヒューリスティックの比較
LFC と HFC の予測精度を調べ、トレーニング中に r を選択し、トレーニング曲線をプロットすることで、さまざまなヒューリスティックをテストします。
バッチ サイズ: バッチ サイズの選択が汎化動作にどのような影響を与えるかを研究します。結果を図 4 にプロットします。
- 小規模なバッチはトレーニングとテストの精度を向上させるのに優れているようですが、より大きなバッチは汎化ギャップ (トレーニングとテストのパフォーマンスのギャップ) を埋めるのに優れているようです。
- さらに、汎化ギャップはモデルが HFC を捉える傾向と密接に関係しているようです。つまり、より大きなバッチでトレーニングされたモデルは HFC に対してより不変であり、トレーニングとテストの精度の差が小さくなります。モデルが人間のように動作すると (人間がデータに注釈を付けるため)、汎化ギャップが最小に達するため、観察された関係は直感的です。
図 4 の観察は、前のセクションの「一般化可能な」機能の説明にも貢献します。直感的には、バッチが大きくなると、損失の急激な低下につながる可能性のある特徴は、データの「一般化可能な」パターン、つまり LFC である可能性が高くなります。
ヒューリスティック: また、次のようなさまざまなトレーニング方法が LFC と HFC にどのように対応するかをテストしました。
- Dropout: トレーニング中にウェイトをランダムにドロップするヒューリスティック。p = 0.5 で完全に接続された層にドロップアウトを適用します。
- ミックスアップ: トレーニング中にサンプルとそのラベルを線形に統合するヒューリスティック。標準のハイパーパラメータ α = 0.5 を使用して適用します。
- BatchNorm: ディープ ネットワークのトレーニング プロセスを高速化するために、各トレーニング ミニバッチで正規化を実行するメソッド。これにより、より高い学習率を使用し、ドロップアウトと同様の過学習を減らすことができます。スケール γ を 1、オフセット β を 0 に設定して適用します。
- 敵対的トレーニング: 脅威モデルによるトレーニング中に生成された敵対的サンプルでデータを強化する方法。これは、最も成功した敵対的堅牢性 (防御) 手法の 1 つとして広く考えられています。一般的な選択に従って、脅威モデルとして ε = 8/255 (ε = 0.03 ) の PGD を使用します。
図 5 に結果を示します。最初の図は元の設定であり、残りの 4 つの図では 4 つのヒューリスティックがそれぞれテストされています。
- 私たちの実験では、Dropout は通常のセットアップとほぼ同様に動作しました。
- ミックスアップは同様の予測精度を提供しますが、より多くの HFC を捕捉します。ミックスアップの強化は LFC に関する情報を明示的に奨励するものではないため、これはおそらく驚くべきことではありません。パフォーマンスの向上は、LFC に焦点を当てたことによるものである可能性があります。
- Adversarial Training はほぼ予想どおりに動作します。おそらく堅牢性と精度の間のトレードオフにより、予測精度が低いと報告されます。また、HFC に対する不変性 (例、r = 12 または r = 16) で明らかなように、おそらく「一般化可能」モードを選択した結果として、小さな一般化ギャップも報告します。ただし、r = 4 の場合、敵対的トレーニングは HFC に敏感であるようで、バニラ設定でも無視されます。
- BatchNorm のパフォーマンスは注目に値します。バニラ設定と比較して、BatchNorm は、特に r = 4 および r = 8 の場合、LFC と HFC の両方でより多くの情報を選択します。BatchNorm が HFC を捕捉するこの傾向は、BatchNorm が脆弱性を防ぐという事実にも関連しています。
その他のテスト: セクション 4 の元の設定をそのままにして、1 つの次元に沿ってのみ変更する他のヒューリスティックまたはメソッドもテストしました。
モデル アーキテクチャ: LeNet、AlexNet、VGG、および ResNet をテストしました。ResNet アーキテクチャは、さまざまなレベルで以前の発明よりも優れているようです。元の設定でのテスト精度が向上し、一般化ギャップ (トレーニングとテスト精度の差) が小さくなり、HFC を捕捉する傾向が弱いことが報告されています。
オプティマイザー: SGD、ADAM、AdaGrad、AdaDelta、および RMSprop をテストしました。私たちの実験では、SGD だけが HFC を捕捉する明らかな傾向がある一方で、残りは同一であることに気付きました。
5.2 バッチ正規化に関する仮定
観察に基づいて、BatchNorm の強みの 1 つは、正規化を通じてさまざまな予測信号の分布の違いを揃えることであると仮説を立てます。たとえば、HFC は一般に LFC よりも小さい値を示すため、BatchNorm なしでトレーニングされたモデルはこれらの HFC を簡単に検出できない可能性があります。したがって、より高い収束速度は、異なる予測信号を同時にキャプチャしたことの直接の結果であると考えることもできます。
この仮説を検証するために、LFC データに対して BatchNorm を使用してトレーニングしたモデルと使用せずにトレーニングしたモデルのパフォーマンスを比較し、結果を図 6 にプロットします。
図 6 に示すように、モデルが LFC のみを使用してトレーニングされた場合、元のデータでテストされたか、対応する LFC データでテストされたかに関係なく、BatchNorm は予測パフォーマンスの向上に必ずしも役立つわけではありません。また、半径が小さいほど、BatchNorm の有用性は低くなります。さらに、この設定では、BatchNorm は元の設定ほど一般化されていないため、BatchNorm の利点について疑問が生じる可能性があります。
ただし、BatchNorm は依然として少なくともトレーニング精度の収束を改善しているようです。興味深いことに、加速度は r = 4 のときに最小になります。この観察はさらに私たちの仮説と一致しています。BatchNorm の利点の 1 つが、モデルがさまざまな予測信号を捕捉するよう促すことである場合、BatchNorm のパフォーマンス向上は、LFC でモデルをトレーニングするときに r = 4 のときに最も制限されます。
6. 敵対的な攻撃と防御
お気づきかと思いますが、HFC の観察は「敵対的な例」の現象に直接関係している可能性があります。予測が HFC に依存している場合、HFC の摂動によってモデルの応答が大きく変化しますが、人間はこの種の現象を観察できない可能性があります。摂動はニューラル ネットワークの非直感的な動作につながります。
このセクションは、敵対的な堅牢性とモデルが HFC を悪用する傾向との関係を研究することに専念しています。
6.1 カーネルの滑らかさとイメージ周波数
畳み込み定理で述べたように、画像の畳み込み演算は、画像の周波数領域における乗算と等価です。したがって、大まかに言うと、フィルターの周波数領域の上限の重みが無視できる場合、それに応じて HFC に重みが付けられます。これは、第 1 層カーネルにのみ当てはまる可能性があります。上位層カーネルは直接データに関連していないため、関係があいまいです。
したがって、HFC を無視するようにモデルを強制するには、周波数領域のハイエンドで無視できる重みのみを持つコンボリューション カーネルをモデルに強制的に学習させることを検討できると考えられます。
直観的には (信号処理の知識によれば)、コンボリューション カーネルが「滑らか」であれば、つまり、隣接する重み間に急激な変動がない場合、対応する周波数ドメインでは無視できるほどの高周波信号が見られます。これらの関連性は数学的に証明されていますが、これらが証明する正確な関係については、この文書の範囲を超えています。
6.2 堅牢なモデルにはスムーズなカーネルがある
「滑らかさ」と敵対的堅牢性の関係を理解するために、図 7 (a) と (b) で畳み込みカーネルを視覚化します。
図 7(a) と図 7(b) を比較すると、Madversarial カーネルはより滑らかなパターンを表示する傾向があることがわかります。これは、M_adversarial カーネルの隣接する重みが同じ色を共有する傾向があることからもわかります。ResNet の畳み込みカーネルは [3 × 3] しかないため、視覚化はあまり明確ではないかもしれません。最初の層にサイズ [5 × 5] の畳み込みカーネルがある場合、メッセージは付録で他のアーキテクチャを使用するとより明確に伝えられます。。
6.3 スムージングカーネルにより敵対的な堅牢性が向上
6.1 の直感的な議論と 6.2 の経験的結果は、最初の層の畳み込みカーネルを平滑化することでモデルの敵対的堅牢性を向上できるかどうかという問題に直接つながります。
議論に続いて、FGSM および PGD に対する敵対的な堅牢性を向上させると思われる非常に簡単な方法を紹介します。カーネル w の場合、i と j を使用してその列と行のインデックスを示すため、w_i,j は行 i と列 j の値を示します。N(i, j) を使用して (i, j) の空間的近傍のセットを表す場合、アプローチは簡単です。
ここで、ρ はメソッドのハイパーパラメータです。N(i, j) を 8 つの近傍を持つように修正します。(i, j) がエッジ上にある場合は、単にエッジ上の値をコピーして範囲外の値を生成します。
言い換えれば、隣接する値を混合することで隣接する差分を単純に減らすことでカーネルを平滑化しようとします。この方法には計算負荷はほとんどありませんが、M_adversarial が脅威モデルとして PGD を使用してトレーニングされている場合でも、FGSM および PGD に対する M_natural と M_adversarial の敵対的堅牢性が向上するようです。
図 7 では、私たちの方法を使用したコンボリューション カーネルを、ρ = 1.0 での M_natural および M_adversarial の視覚化に適用します。それぞれ、M_natural (ρ = 1.0) および M_adversarial (ρ = 1.0) と表されます。視覚化が示すように、結果として得られるカーネルは、非常に滑らかなパターンを示す傾向があります。
最大摂動 1.0 の異なる ε を選択して、FGSM および PGD に対して私たちの方法で平滑化されたモデルのロバスト性をテストしました。表 2 に示すように、
- 私たちの平滑化手法を適用すると、クリーン精度は直接低下しますが、敵対的な堅牢性は向上します。特に、私たちの方法は、許容される摂動が比較的大きい場合に役立ちます。たとえば、ε = 0.09 (約 23/255) の場合、M_natural (ρ = 1.0) は M_adversarial よりも優れています。
- 一般に、私たちの方法は M_natural の敵対的堅牢性を簡単に改善できますが、ε が大きい場合にのみ M_adversarial を改善できます。これは、M_adversarial が脅威として PGD (ε = 0.03) を使用するモデルがトレーニングされているためである可能性があります。
7. 画像分類を超えて
私たちの目標は、画像分類タスクを探索することだけではありません。物体検出タスクを調査します。バックボーンとして RetinaNet と ResNet50 + FPN を使用します。COCO 検出トレーニング セットを使用してモデルをトレーニングし、5000 枚の画像の検証セットで推論を実行し、35.6% の平均平均精度 (MAP) を達成しました。
次に、r = 128 を選択し、画像を x_l と x_h にマッピングし、同じモデルでテストすると、LFC では 27.5% の MAP、HFC では 10.7% の MAP が得られました。35.6% から 27.5% へのパフォーマンスの低下に興味をそそられたため、人間でも同じ低下が予想されるべきかどうかをさらに調査しました。
7.1 LFC のパフォーマンス低下
HFC がドロップされると、x_l には元のイメージからの豊富な情報が含まれない可能性があるため、x から x_l へのパフォーマンスの低下が予想される場合があります。特に、画像分類とは異なり、HFC は特定のオブジェクト、特に小さなオブジェクトを描写する際に重要な役割を果たす可能性があります。
図 8 は、入力画像を低周波の対応物に置き換えると、一部のオブジェクトの認識が悪化する例を示しています。低周波画像はぼやける傾向があり、一部のオブジェクトは人間には見えない可能性があるため、この違いは予想されることです。
7.2 LFCのパフォーマンス向上
しかし、逆の方向からパフォーマンスの差を調べると、その違いが興味深いものになります。1684 枚の画像を特定しました。これらの各画像について、元の画像と比較していくつかのオブジェクトがよりよく認識されました (高い MAP スコア)。
結果を図 9 に示します。人間が検査する場合、これらの物体が低周波画像でより適切に識別される理由は明らかではないようです。これらの観察は、CNN と人間の間の知覚の違いは、画像分類を超えたより高度なコンピューター ビジョン タスクにも存在するという私たちの主張を強化します。
8. ディスカッション: HFC は単なるノイズですか?
この質問に答えるために、私たちは一般的に使用される別の画像ノイズ除去方法である切り捨て特異値分解 (SVD) を試しました。画像を分解し、支配的な特異値を持つ再構成画像と後続の特異値を持つ再構成画像に分離します。この設定では、図 2 の現象を裏付ける画像がはるかに少なくなりました。私たちの観察は、CNN によって悪用される HFC が単なるランダムな「ノイズ」ではないことを示しています。
9. 結論と展望
私たちは、画像スペクトルが CNN の一般化動作にどのような影響を与えるかを研究し、新しい観点からニューラル ネットワークの一般化動作に関するいくつかの興味深い説明につながります。データには複数の信号がありますが、それらのすべてが人間の視覚の好みに対応しているわけではありません。この記事では多くのトピックを包括的に取り上げているため、学んだ主な教訓を簡単に繰り返します。
- CNN は人間の視覚的好みと矛盾する HFC (§3) を捕捉する可能性があり、ランダム化されたデータにラベルを付ける学習のパラドックス (§4) や敵対的な脆弱性 (§6) などの一般化の謎につながります。
- Mix-up や BatchNorm などの精度を高めるヒューリスティックは、HFC の捕捉を促進する可能性があります (§5)。精度と堅牢性の間のトレードオフ (§3) により、その価値を再考する必要があるかもしれません。
- 敵対的モデルはスムーズなカーネルを持つ傾向がありますが、その逆は必ずしも真ではありません (§6)。
- 同様の現象が物体検出の文脈でも観察されていますが (§7)、さらなる結論はまだ出ていません。
今後、私たちの研究が、最先端技術が私たちが思っているほど重要ではない、コンピューター ビジョン研究の将来の時代への呼びかけとなることを願っています。
- リーダーボード上の 1 つの数字は、研究を一方向に大きく推進する可能性がありますが、最も重要であると思われるモデルと人間の間の合意を信頼できる形で反映しているわけではありません。
- 私たちの研究が、生の画像のパフォーマンスとともに低周波対応物のパフォーマンスも報告する必要があるという新しいテスト シナリオにつながることを願っています。
- 人間がデータをどのように認識するかにおける明示的な帰納的バイアスを考慮に入れると、将来的に重要な役割を果たす可能性があります。特に、神経科学の文献は、人間が物体を認識するために低周波信号に依存する傾向があることを示しており、これが将来の方法の開発に影響を与える可能性があります。
参考
Wang H、Wu X、Huang Z 他 高周波コンポーネントは、畳み込みニューラル ネットワークの一般化を説明するのに役立ちます[C]//コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議の議事録。2020: 8684-8694。
[27] アンドリュー・イリヤス、シバニ・サントゥルカール、ディミトリス・チプラス、ローガン・エングストロム、ブランドン・トラン、アレクサンダー・マドリー。敵対的な例はバグではなく、機能です。arXiv プレプリント arXiv:1905.02175、2019。
S. まとめ
S.1 コアアイデア
この論文では、画像スペクトルと CNN の汎化能力との関係を研究します。著者らは、CNN の非直観的一般化動作は人間とモデルの間の認識の違いの直接の結果であると主張しています。CNN は人間が知覚できない高周波成分を捕捉できます。
S.2 研究方法
フーリエ変換とフィルターを組み合わせて、画像の低周波成分 (LFC) と高周波成分 (HFC) を取得します。次に、逆フーリエ変換を使用してコンポーネントが再構築され、これらの再構築された画像がモデルの精度を検証するためのテスト セットとして使用されます。
フーリエ変換またはその逆変換では複素数が導入される場合があることに注意してください。この論文では、逆フーリエ変換結果の虚数部は単純に破棄され、結果の画像が通常どおり CNN に入力できるようにします。
S.3 分析
研究によると、CNN は人間の知覚の好みと偶然一致する LFC を学習することを好むことがわかっています。ニューラル ネットワークはより単純な関数を好む傾向があるという説明もありますが、著者らは、データセットが人間によって整理され、注釈が付けられているため、低頻度のラベルの組み合わせが高頻度のラベルの組み合わせよりも「一般的」であるためであると推測しています。データセット。
この記事で私が同意する一節「最後に、私たちは質問をしたいと思います。LFC におけるネットワークの好みと人間の知覚の好みの間の一致は、状態を上昇させる過程で多くのテクノロジーによって発明された単純な「生存バイアス」である可能性があります。 「最先端のはしご。その結果。言い換えれば、ニューラル ネットワークのほぼ 100 年にわたる進化は、テクノロジーの「自然選択」のようなものでした。生き残ったアイデアは、たまたま人間の好みに適合しただけかもしれませんし、そうでないかもしれません。はしごの登り方が下手だったので出版されました。」
S.4 ヒューリスティック
著者らは、汎化パフォーマンスに対するさまざまなヒューリスティックの影響を研究しています。ここでは、重大な影響を与える 2 つだけをリストします。
バッチサイズ。バッチが大きくなると汎化ギャップが小さくなり、現時点ではモデルは多くの高周波成分を学習しません。モデルが人間のように動作すると、最小の汎化ギャップが達成されるため、観察される関係は直感的です (人間はデータに注釈を付けますが、人間は高周波成分を観察することはできません)。
バッチノルム。BatchNorm を使用すると、モデルはより多くの高周波コンポーネントを利用できます。BatchNorm の強みの 1 つは、さまざまな予測信号の分布の差を揃えるための正規化です。たとえば、HFC は一般に LFC よりも小さい値を示すため、BatchNorm なしでトレーニングされたモデルはこれらの HFC を簡単に検出できない可能性があります。
S.5 堅牢性とコンボリューションカーネルの滑らかさ
堅牢なモデルには、スムーズな畳み込みカーネルが含まれる傾向があります。モデルが高周波成分によって予測する場合、高周波成分に対する小さな摂動がモデルの結果に大きな影響を与える可能性があります。
コンボリューション カーネルが「滑らか」である場合、つまり、隣接する重み間に急激な変動がない場合、対応する周波数ドメインでは無視できるほどの高周波信号が見られます。
スムーズ コンボリューション カーネルを使用すると、モデルの精度に影響しますが、堅牢性を向上させることができます。