方法を最適化するために綿密な調査

ここに画像を挿入説明

トレーニングセット上のパフォーマンスの低下(高バイアス)

  1. (層、構造または変化の数を増加させる、細胞の数を増加させること)が大きく、より複雑なネットワーク構造を使用しようと
  2. トレーニング時間を増やします

活性化関数を置き換え

シグモイド関数

ここに画像を挿入説明
シグモイド短所:

  1. 勾配が消え
    ガイドでゼロに収束0から0.4までの広い範囲の間で示されるように数シグモイド関数。勾配の非常に小さなフロント層をもたらす、勾配バックプロパゲーションプロセス次いで質量が小さいです。
    2.非中心対称
    ここに画像を挿入説明
    値は、次の層のために、その入力は正、逆導出は、すべてのパラメータのために常に、それはシグモイド0より大きい、
    ここに画像を挿入説明更新の方向に応じて、常に正の数である=入力層勾配を返すために、異なるパラメータが異なる方向に更新することはできません。現象を起こしやすいジグザグ。
    3.計算集約

ここに画像を挿入説明
勾配を消える非対称の起源の問題を解決しますが、問題が残っています

履歴書

ここに画像を挿入説明
利点:

  1. 実験結果は、迅速な収束を証明します
  2. 人間の神経節作品とのラインで
  3. 勾配消える問題を解決する
    欠点を:
    出力一定の勾配が負の戻り0のとき、死んだReLU現象が発生しますので

Leakly履歴書&パラメトリック履歴書

ここに画像を挿入説明
死者ReLUの問題を解決

指数の履歴書

ここに画像を挿入説明
そして、それはrelu LeakyReLU間で見ることができます。計算EXPする必要があるので、計算量が多いです。

MAXOUT

ここに画像を挿入説明
パラメータkの学習セット内のグループ(出力ノード)に対応し、このノードからの最大活性化値出力は次のように選択されます。
実際には、kは区分機能部であり、いかなる理論にも取り付けることができ、凸関数の
パラメータは時間に量をXK。

学習率の最適化

学習率の崩壊

  1. 間隔は学習率を調整するためにStepLR
  2. 学習率MultiStepLR調整マルチインターバル
  3. 指数は学習率を調整DECAY ExponentialLR
  4. 学習率を調整するためにアニールするコサイン関数:CosineAnnealingLR
  5. レート調整ReduceLROnPlateau学習の指標によれば
    、(増加または減少が所与の閾値を超えて)変化なしに最近エポックの学習速度調整をするとき、特定の指標(損失または精度)。

適応学習レート調整(学習率の最適化)

伝統的なSGDの欠点は、なぜ学習率の最適化を高めます

  1. サイズと学習戦略難しい選択率
  2. 学習レートは、すべてのパラメータに同じ、十分にスマートではありません。
  3. 同時に局所極値と鞍点の問題に直面。

運動量勢い方法

勾配の累積相乗基準方向前
ここに画像を挿入説明
ここに画像を挿入説明

ネステロフニュートンの運動量法(累積ポイントに基づいて算出し、勾配が必要とされます)

点Cまで前進運動量の方向に応じて、その後比較モーメンタム方法として、点Cでの勾配を勾配降下を行います
ここに画像を挿入説明![ここの挿入の説明](https://img-blog.csdnimg.cn/20200222102352360.png

Adagrad(累積逆勾配)

異なるパラメータを動的に異なる学習率を取るためには、その目的関数より速い収束います。
基本的な学習率の動的更新の数で割った累積勾配広場と各パラメータの平方根は、学習率を行います。
非常に始まるadagradアルゴリズムの収束より速く、より遅く、バックゆっくりと罰の収束になってし、鼓舞することです。
なぜ?
勾配矛盾可変レート異なる寸法、ステップサイズ更新関数値だけでなく、変化率(一次微分)に、次いで、比例誘導体とともに変化率(二次微分)が反比例し、カーブの曲率より大きいからです小さく、高速カーブの曲率極値点から、短い距離となり、誘導体が遅くなる誘導体、より大きい極値点からの距離。
グラデーションを二乗と二次微分を近似するために、ここで使用され蓄積されます。

ここに画像を挿入説明
ここに画像を挿入説明

RMSprop(スライディングウィンドウ)

上記プリアンブル勾配累積値のAdagrad分母は、学習問題の停滞をもたらす、より多くの小さな学習率が存在することになります。悪い極端なポイントに非常に早い回の繰り返しの後、学習率が最適に収束しない。この最後のソリューションから、極端なポイントを引き起こすには小さすぎるが原因発生する可能性があります。使用RMSprop 指数加重移動平均解決する方法を。(スライディングウィンドウの考え方)
ここに画像を挿入説明

AdaDelta(適応学習レート)

学習率の変化量を概算するために、以前の近似値を使用して

ここに画像を挿入説明ここに画像を挿入説明

アダム・アルゴリズム

= + RMSPropの勢い方法
ここに画像を挿入説明

テストセットのパフォーマンスの低下(高varience)

  1. より多くのトレーニングデータの収集
  2. モデルの複雑さを軽減

パラメータ空間の次元を削減

プルーニングパラメータ共有

各次元の有効サイズ(正則化)を減少させます

L1、L2正則

なぜサイズパラメータ削減- >良い汎化能力
パラメータの絶対値が非常に大きい場合、この現象は、図1の曲線の視覚的な表現であるが(表面)非常に複雑で、不均一な平滑化されていない;逆に、それぞれの絶対成分W場合0は、曲線(表面)の近くに非常に小さな値が非常に滑らかになるであろう。もちろん、機械学習では、我々は近似曲線(面)スムーズには、そのような曲線(サーフェス)ので、良いの汎化能力であることを願っています。

  • L2正則
    ここに画像を挿入説明
    ここに画像を挿入説明
    各項目は、ゼロに近い、より多くの小さい、その結果、1未満の定数を乗じたが、ガウス分布に起因して、実際にゼロまで減衰しません。重いペナルティに大きな重量とL2正則絶対値重みが0の絶対値が、実質的にペナルティなしに接近したとき、非常に小さい重量ペナルティの絶対値は、非常に、非常に小さいです。
    これは、強力な共直線の加工特性を容易にします。
    しかし、あなたは、よりまばらなネットワーク(重み!= 0)を取得することはできません。
  • L1正則化は
    ここに画像を挿入説明
    ここに画像を挿入説明
    、元の負に+ wは、元の正数- 、0 =全体的な最適化の方向
    L2、異なるアイデンティティWの勾配の額面反対側は、より小さい値ゼロが完了するまでに助長している間引きを、以下のための特徴選択開始値が比較的大きい。しかし、その後、重量制限は大きくはありません。
    短所:強いだけを残して共直線特性のために、いくつかの機能は、意思決定に有用であることも可能です。
    ここに画像を挿入説明

早期の停止

バリデーションセットのモデルのパフォーマンスが問題にトレーニングリードを継続するために、過剰適合を回避するように、ストップトレーニングを減少し始めたときに、検証セットでパフォーマンスコンピューティングモデルのトレーニング
理論的な訓練誤差曲線

ここに画像を挿入説明
初期の基準を停止します:

  • ST:汎化誤差が大きい場合には、一般化の損失=汎化誤差電流/最小誤差-1(GL)
  • ST:訓練誤差。説明:非常に迅速にトレーニングするとき、我々はモデルがトレーニングを継続することをお勧めします。もしので訓練誤差は、まだダウン迅速、その後、修理されるの偉大な確率の損失を一般化。測定進捗=平均訓練誤差/最小訓練誤差-1(PQ)
  • ある変更、SS期連続ストップで汎化誤差の増加の汎化誤差(最大)
    を参照してください早期停止

脱落

  • 原理:
  • アンサンブルを説明
    ニューロンの層の数は、Nであると仮定すると、集積方法のように場合は、2 ^ nは訓練されたネットワーク共有パラメータに相当ドロップアウト= 50%、ミニバッチを使用して、各ネットワーク(1 ITERでの)訓練。すべてのネットワークの平均平均に近づけるために、すべてのノードで試験した場合
  • ニューロンの共同適応性との間の関係の複雑さを軽減する
    2個のニューロンが共存しているときは、常にドロップアウトしません
  • 生物学的に
  • 多くの場合、この環境に適応する傾向が種を生き残るためには、環境にタイムリーな応答をすることが困難な種の変異になり、男女の出現は、環境の種を避けるために、すなわち、新しい環境に適応効果的にオーバーフィットを防止するためのバリアントを変更することができる生成でき絶滅に直面。
    2.方法
    Pの確率トレーニング時間(0.5の一般数ように最大利用可能なネットワーク構造)を選択したニューロンの、テスト中のすべてのニューロン、体重×(1-P)。(Wは、大きすぎて学習するので、出力はトレーニングとテスト中の近くに期待されていること)

BN

なぜBN

  • ニューラルネットワークの各層について、その出力対応する入力層に、各パラメータの使用RMSProp一貫した学習率せず、各パラメータの傾きが第一リターンと実質的に同じであるようにするためにAの
  • それはTANH又はシグモイド活性化関数として使用されている場合は、最初に0に近い非常に近い出力(二勾配の活性化関数の感度範囲)に対して正規化した後、深さの層数として、出力値は、勾配の消失を生じる、小さくなり勾配の消失を減らすために
  • 論文は、内部共変量シフトを遅らせる、言う:各層の対応は、上部入出力に、トレーニング中上側インパクトとして、各トレーニングラウンドパラメータが変更され、ネットワークへの同じ入力が、N-出力1は、入力分布のこの層は、変更された学習を助長しないようにリード線は、n番目の入力層と同じに入る同じ層ではないではありません

BNがたDO

トレーニング:

  1. 0、分散1の標準的な分布を意味するように変換され
    、それぞれを バツ = バツ - / S Q R トン V 2 + E X_I =(X_I - U)/(SQRT(V ^ 2)+ E) Eがゼロになる傾向分母を防止するためのオフセット小さい、です。
  2. スケールとオフセットプラス
    バツ = S C A リットル E * バツ + S 時間 F トン * X_I +シフトX_I =スケール
    はなぜプラス?標準プロファイルに正規化する前にネットワークが非直線性を確保するためには、何も良い式リニアになっていないだろうということ。
  3. 注意!BN層は、1つのネットワークとしてそれを見ることができ、BPに考慮されるべきです。
  • テスト:
    おおよそのトレーニングを用いた場合に得られる平均累積統計の分散
    pytorchするために、特定の
    平均と分散動的パラメータの動的を維持するために運動量の使用を
    ここに画像を挿入説明

BNの利点

  1. 上記内部convariateシフトを解決します。
  2. スロー勾配は、訓練を加速するために、ある程度消えます
  3. オーバーフィッティングを防止するには、次の訓練に、BNはミニバッチ内のすべてのサンプルが一緒にリンクされているように使用されているので、ネットワークは学習サンプルからの決意の結果を生成しません。
  4. 初期化パラメータの選択の要件の弱体化

BPのBN導出

参照して前に戻ってからの連鎖ルールはほとんど兄をリンク知っています

Normolizationコントラスト

  • BN:オンNHW正規化、取得したグループCのVAR平均値、RNNでの使用に適した小さなバッチサイズの効果がない、ではありません
  • LN:オンCHWはNセットを一般的にRNNで使用VAR平均値を与えるために正規化
  • IN:HW正規のインスタンスノーム、得られNXCグループのVARの平均値は、一般的に、移行のスタイルで使用されています
  • GN:GroupNormパケットチャネル、その後、正規化を行います。
  • SN:SwitchableNorm、BN、LNは、自己学習ニューラルネットワークを使用することによって、それらを重み付け、結合しています
    ここに画像を挿入説明
公開された35元の記事 ウォンの賞賛2 ビュー1429

おすすめ

転載: blog.csdn.net/qq_30776035/article/details/104440116