論文の読み方:深さに正確に依存するReLUネットワークの鋭い表現定理


元のリンク:https ://arxiv.org/pdf/2006.04048.pdf

概要

この論文で定義された関数GDのクラスについて、二乗損失の下でDReLU層を持つニューラルネットワークの明確な無次元表現の結果を示します。これらの結果は、次の意味で深度の利点を正確に反映しています。
ここに画像の説明を挿入

これは、任意の深さDとニューロン数Nのフィードフォワードネットワークの表現力のきめ細かい表現を構成しますが、既存の表現結果では、DがNとともに急速に成長するか、表現された関数が非常に滑らかであると想定します。後者の場合、単一の非線形層で同様のレートを得ることができます。私たちの結果は、ディープネットワークがより滑らかでない関数をよりよく表すという一般的な仮定を確認します。実際、主な技術革新は、ディープネットワークが少数の活性化関数で高度に振動する関数を生成できるという事実を最大限に活用することです。

1はじめに

ディープニューラルネットワークは、現代の機械学習の主力製品です。重要な理由は、ディープネットワークの普遍近似の性質です。これにより、任意の精度で連続実数値関数を表すことができます。ニューラルネットワークの普遍近似特性を確立するさまざまな表現定理[2、3、4、5、6]。長い作業線は、関数の規則性条件下でのニューロン数のおおよその割合を示します[7、8、9、10、11、12、13、14、15、16]。これまでのところ、単一の非線形層の場合はよく理解されていますが、対応する理論上の深いネットワークは欠けています。

経験によれば、深いネットワークは浅いネットワークよりもはるかに優れたパフォーマンスを発揮し、多くの理論論文がこれを理解することを目的としています。たとえば、[17]は、サンプル数に応じて深さを増加させると、ノンパラメトリック回帰タスクの最適なエラー率が最大および最小になることを示しています。[18]ディープネットワークでの階層的学習を検討しました。ここでは、SGDトレーニングの結果として得られるレイヤーが、機能を表すためのより複雑な機能を順次構築します。データでトレーニングされたニューラルネットワークの一般化パフォーマンスを理解することは難しい問題であり、ネットワークの表現力が任意の最適化手順の下で基本的な障壁の論理を決定する一方で、この論文ではより基本的な表現の問題に焦点を当てます。

深さ分離に関する一連の研究は、特定の深さのネットワークで効率的に表現できるが、非常に広くない限り浅いネットワークでは表現できない関数を構築することによって、深さの利点についての洞察を得ようとします[19、20、12、21、22 、23、24、25]。たとえば、[23]は、1つではなく、2つの非線形層で簡単に近似できる放射関数の存在を示し、[24]は、次のネットワークで近似することで簡単に近似できる振動関数の存在を示しました。 D 3つの非線形層。ただし、Dの非線形層で構成される2Dワイドネットワークではありません。[26、27]動的システムのアイデアを使用してこれらの結果を拡張し、深さと幅のトレードオフを取得します。合計積ネットワークで確率分布を表す別の設定では、[28]はD+1からDを分離するための強力な結果を示しました。これらの結果はすべて、特定の深さを必要とする関数の存在を示唆していますが、特定の深さのネットワークによって近似される関数のクラスを特徴付けようとはしていません。

単一層にN個の非線形ユニットがあるニューラルネットワークの場合、大数のパラメーターの法則による古典的な結果は、1/Nの2乗損失減衰率をもたらします[7,8]。いくつかの論文は、深さを増やすことの利点を提案しており[9、10、12、13]、表現された関数が非常に滑らかであり、損失が0に近づくにつれて成長する深さ。ただし、最近[16]で、この追加の平滑化を想定した場合、同様の誤差減衰率を達成するには単一の非線形層で十分であることが示されました。したがって、これらの結果は深さの利点を反映していません。

私たちに最も関連性のある研究は[14]であり、これは、supノルムの下で連続係数が与えられた場合の関数表現を考慮しています。深さDが活性化関数の総数Nと線形である場合、エラー減衰率はDが一定である場合よりも厳密に優れています。これは、深さがネットワークの表現力に有益であることを示唆していますが、レートは次元に依存しているため、結果が深さの正確な利点を明確に説明することにはほど遠いことが明らかになります。

このホワイトペーパーでは、ReLUネットワークの表現機能における深さの役割の詳細な特性評価を提供します。D ReLU層と入力次元dを持つネットワークが与えられた場合、[7]のように、古典的な作品で検討されているクラスと同様に、フーリエ変換減衰によって特徴付けられる実数値関数GDのクラスを定義します。Dが増加すると、フーリエ変換の裾が広くなり、より広いクラスの関数がキャプチャされます。関数のフーリエ変換の減衰がその滑らかさに関係していることはよく知られています([29]を参照)。 )。セクション4で説明した結果は、D層にN ReLUユニットを備えたネットワークは、G Dのような関数のN次レートを達成できるのに対し、D ' <DReLU層を備えたネットワークはより遅いN - D ' /D次数レートを備えている必要があることを示しています。これらのレートはすべて、一定の要因の下で最適です。セクション3で説明したように、深いネットワークの構成構造を利用して、浅いネットワークでは生成が難しい高度に振動する関数を体系的に生成することにより、これらの結果を示します。

整理。この論文は次のように構成されています。セクション2では、表記法を紹介し、問題を定義します。セクション3では、結論の背後にある主要なアイデアの概要を説明し、セクション4で正式に述べます。セクション5、6、および7は、これらの結果を示しています。

2表記法、問題の設定、およびフーリエノルム

2表記法、問題設定、およびフーリエノルム
ここに画像の説明を挿入D:ReLU層の数
d:入力次元、d 1 = d、d 1 = n i-1i≥\ geq≥2
ej:標準基底ベクトル
ここに画像の説明を挿入
深さDのニューラルネットワークで必要かつ十分なReLUユニットの数を知りたいので、その出力fの損失の2乗は次のようになり
ここに画像の説明を挿入
ここに画像の説明を挿入
ます。定義域Rdは通常、暗黙的、わかりやすくするために、d)またはGK(R)フーリエ変換の減衰は関数の滑らかさに関係しているため、関数空間シーケンス(GK)はKとともに増加し、関数の滑らかさが低下します。このような関数を正確に説明することは困難ですが、Bd®を除くすべてのKについて(適切なバンプ関数を掛けることにより)、0に減衰するように変更すると、さまざまな関数がGKの種類に含まれることに注意してください。これらには、多項式、三角多項式(すべてのK≥\ geqに対して≥1)および任意の深さの任意のReLUネットワーク(K≥\ geq≥2時間)。
ここに画像の説明を挿入

3深さを使用して表現を改善する

次のセクションで表現定理を述べる前に、コアとなるアイデアについて簡単に説明します。

  1. [7]に続いて、逆フーリエ変換を使用して、確率変数ξに対するAcos(<ξ、x> +θ(ξ))の期待値としてf(x)を表現し、次にReLUユニットを使用してcos(< ξ、x> +θ(ξ))。
  2. [24]と同様のアイデアを使用して、深さDのネットワークに配置された〜k 1 / D ReLUユニットを使用して、 2kのピークを持つ三角波形Tkを実装します。
  3. 低周波コサインと三角波形の組み合わせを使用して、cos(<ξ、x> +θ(ξ))の形式の高周波コサインがReLUユニットによって効果的に近似されます。

単一の隠れ層を持つReLUネットワークを使用して、区間[-1,1]のtの関数f(t)= cos(ωt)を近似するとします。間隔[-1,1]には関数のΩ(ω)サイクルが含まれているため、効果的に追跡するにはΩ(ω)ReLUユニットが必要です。2つの非線形層を許可すると、この依存関係を大幅に改善できることがわかります。最初のレイヤーが使用されます
ここに画像の説明を挿入
ここに画像の説明を挿入

4主な結果

ここに画像の説明を挿入
次に、定理2で一致する下限を示します。これは、任意のDの深いDネットワークとD+1ネットワークの間の深さの分離も示しています。
ここに画像の説明を挿入
ここに画像の説明を挿入

5技術的結果

定理1と2の証明に飛び込む前に、いくつかの技術的な補題が必要です。
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入

ここに画像の説明を挿入

6定理の証明1

ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入

7定理2の証明

ここに画像の説明を挿入

補足資料

A.1周波数乗数-証明
補題1は初歩的であるため、証明をスキップします。補題2の証明を次のように示します。
ここに画像の説明を挿入
ここに画像の説明を挿入
A.2正弦波のReLU表現-証明
ここに画像の説明を挿入

ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入
ここに画像の説明を挿入

おすすめ

転載: blog.csdn.net/qq_38703529/article/details/121791301