1.8その他の正則化法 - 深い学習レッスン「改善DNN」-Stanford教授アンドリュー・ウ

その他の正則化法(その他の正則化法)

に加えて L 2 L2 正則とランダム不活性化(ドロップアウト)正則、ニューラルネットワークの過剰適合を減らすには、いくつかの方法があります。

ここに画像を挿入説明

Aデータ増幅

あなたはオーバーフィットトレーニングデータを増幅することによって対処することにしたい場合は、フィットキティの絵分類器あると仮定し、そのデータは、高い価格を増幅し、時には我々はデータを増幅することはできませんが、私たちは、このような画像を追加することによって増加させることができますトレーニングセット。例えば、左右反転画像、およびトレーニングセットに追加します。だから今そこにオリジナルのトレーニングセットをしており、この絵を裏返し、そのトレーニングセットを介して画像を水平方向に反転することは、倍にすることができるため、トレーニングセット持って良いと私たちは新しい写真の追加セットを収集しないようものの、冗長性、とても良い、しかし、やっては取得した画像は、より多くの猫を取る保存されます。

ここに画像を挿入説明

加えて、この絵は自由に回転すると、増幅のオリジナルカットした後、画像が猫に認識された、あなたはまた、無料の画像をトリミングすることができ、水平に画像を反転します。

カジュアルフリップクロップ画像によって、我々は偽を生成するために、データセット、追加のトレーニングデータを増やすことができます。そして、これらの追加的な偽のデータと比較して新しい、独立した猫の画像データは新しいデータとして多くの情報として含めることはできませんが、私たちは、基本的なコストを持っていない、コストはいくつかの対立価格を除いて、ほぼゼロです。このように、増幅アルゴリズムデータ、およびさらに正則化データセットにおいて、オーバーフィッティングを低減することが比較的安価です。

ここに画像を挿入説明

合成データと同様に、我々は猫がまだ左右反転された後、アルゴリズム絵の猫を検証したいです。私たちは、逆さ絵を望んでいないにもランダムに拡大した画像の一部を選択することができますので、猫はまだそれにすることができ、私は上下反転しなかったことに注意してください。

光学式文字認識のために、我々はまた、デジタル、デジタルが回転したりねじれた増幅データであることを追加することができ、トレーニングセットに追加し、これらの数字は、彼らはデジタルのまま。便宜上、私は皆の参照をさせるために、私はこれを作った、4が表示されますがする、実際には、のようなわずかな変形限り、そう誇張された数4の歪みを行う必要はありませんデジタル波形ので、文字強い変形プロセス作らより明確に。ときに実用的な、我々は通常、複数の文字を処理するわずかな変形を行います。これら4つのルックスなのでビットが歪みます。したがって、データは、増幅正則化法、同様の正の実際の機能として使用することができます。

二。早期停止

呼ばれる別の一般的な方法があるの早期停止勾配降下を実行しているが、我々は訓練誤差を描くことができ、またはトレーニングセットにわたって記録0-1倍の分類エラーで、唯一のコスト関数最適化プロセスを描きます。図に示すように単調に減少しました。

ここに画像を挿入説明

訓練過程で、私たちは訓練誤差、コスト関数があることを願っていますので J J 早く停止することにより削減され、我々は、上記の内容を描くことができないだけでも、検証セットの誤差を描くことができ、それは、集電体上に分類誤り、または検証セット、ロジック損失と対数損失にコスト関数を検証することができ、あなたは、通常、減少傾向を開始し、そのノードで上昇し始め、早期停止の役割は、あなたが言うだろうということである、ニューラルネットワークは、この反復プロセスでよく行われている、と私たちはここにいる検証セットの誤差がありますそれを訓練停止、検証セットのエラーを取得し、それが役割を再生する方法ですか?

ここに画像を挿入説明

あなたは時にパラメータをニューラルネットワークにあまりにも多くの反復プロセスを実行していない場合には w ワット ランダム初期ためゼロに近いです、 w ワット 値の前に、その値は、限り、あなたは、ニューラルネットワークを訓練する、小さなランダムな値であったかもしれません w ワット まだ小さい、反復的なプロセスであり、訓練プロセスで w ワット 値は、ニューラルネットワークのパラメータ、などこことして、ますます大きくなるだろう w ワット 値はすでに、非常に大きいので、早期停止を行うには反復プロセスの途中で停止する点である、我々が得ます w ワット Sifan番号弗罗贝尼乌中型値、及び L 2 L2 正則同様の選択パラメータ w ワット 小さく規範ニューラルネットワーク、私はあなたが深刻なニューラルネットワークの過剰適合ではありません願っています。

ここに画像を挿入説明

用語の早期停止代わっは、早期私は時々使用し、ニューラルネットワーク、ニューラルネットワークの訓練、訓練停止の早期停止を、それも欠点があり、確認してみましょう。

私はステップでは、コスト関数を最適化するアルゴリズムを選択することで、その機械学習プロセスは、いくつかのステップを含んでいると思います J J 、我々は後に、私のような他のアルゴリズム、ご紹介します、そのような勾配降下として、この問題を解決するためのさまざまなツールを持っている運動量RMSpropアダムを、というように、しかし、コスト関数を最適化するために、 J J その後、私はフィットしたくないが発生し、そのような正則、増幅データなどのようにこの問題を解決するためのいくつかのツールがあります。

ここに画像を挿入説明

機械学習、スーパーサージパラメータでは、選択可能なアルゴリズムはますます複雑になっています。私たちはツールのセットでコスト関数を最適化する場合ことがわかりました J J 、機械学習は、フォーカスでのコスト関数を最適化することが容易となります J J 、あなただけの注意を払うに必要 w ワット b B J ( w , b ) J(W、B) より良い小さい方の値は、この値のみを削減する方法を見つける必要がある、他の人が心配しないでください。その後、他のタスクの上に防止すること、言い換えれば分散を減らすことです、私たちはこの原則を実現するためのツールの別のセットを使用して、このステップでは、と呼ばれることがある「直交技術。」アイデアは、心配しないで、あなたはこの概念を理解していない場合、私は、特定の直交化を紹介教室の後ろに、一度に一つのタスクを実行することです。

しかし、私のために早期に停止する主な欠点は、あなたが個別にこれらの2つの問題に対処することができないということです、費用関数の最適化を停止するには、早期のためである勾配降下、の停止 J J 、ので、今、あなたは、もはやコスト関数を削減しようとしていません J J 、そのコスト関数 J J 値が小さいことがないかもしれませんが、あなたは、オーバーフィッティング表示されないようにすると同時に、あなたは、この2つの問題を解決するために異なるアプローチを取る必要はありませんが、同時に2つの問題を解決する方法と、この結果は、私が考慮しなければならないということです物事はより複雑になります。

ノーならば早期の停止、別の方法があるに L 2 L2 正則、ニューラルネットワークを訓練することは、長い時間がかかることがあります。私は破壊すること、超解空間でのこの結果は簡単に発見し、検索しやすく、しかし欠点は、正則化パラメータの多くを試してみてということです λ \ラムダ また、検索の多数につながった値が、 λ \ラムダ コストの計算値が高すぎます。

早期停止のみ勾配降下回実行利点を、あなたは見つけることができます w ワット より小さい値、中間値と試みずに大きな値 L 2 L2 正則化パラメータのスーパー λ \ラムダ 値の多くを。

あなたはまだ完全に概念を理解することができない場合、それは問題では、我々は詳細に直交の次のクラスを説明しませんので、それはよりよく理解されるであろう。

にもかかわらず L 2 L2 正則の欠点は、まだ多くの人がそれを使用して喜んでである持っています。アンドリュー・ウの先生は個人的に使用することを好みます L 2 L2 正則、多くの異なっを試してみてください λ \ラムダ あなたは多数の計算のコストを余裕があると仮定した値、。使用初期の停止は非常に多くをしようとするのではなく、同様の結果を得ることができます λ \ラムダ 値。

このレッスンでは、我々はデータの増幅を使用し、そしてどのように使用する方法について話を早期に停止するオーバーフィッティングに分散減少やニューラルネットワークの防止を。

コースPPT

ここに画像を挿入説明
ここに画像を挿入説明
ここに画像を挿入説明

公開された186元の記事 ウォン称賛7 ビュー10000 +

おすすめ

転載: blog.csdn.net/weixin_36815313/article/details/105394162