CHANG教師のマシンラーニングコースノートには、2講演_ML:エラーはどこから来るのでしょうか?

はじめに:

最近、「機械学習」を学び始め、CHANG島の国の名前を聞いていた先生は、彼のコースを見て時間がありません。今日のレッスンを聞いた後、私は理解しやすい、偉大な感じが、キーをつかむことができますが、また、いくつかの非常に興味深い例との中間のは、学生の印象を深めること。
ビデオリンク(嗶哩嗶哩):CHANG機械学習(2017年)
ほかの生徒には、githubの上の速記や更新を行うことを決定した:CHANG機械学習ノート(LeeML-注)
だから、次のレコードが私のノートをちょうど私自身のいくつかを混乱時の概要と講義は、友人があるなら、私は展覧会を助けてくださいすることができます。

まず、からのエラー?これらのエラーに対処するには?

最初のレッスンから知ることができ、より複雑なモデルが必ずしも低エラー(エラー)につながりません。二つの側面からのエラー:

  • 偏り(バイアス)
  • 分散(分散)
    エラーの原因を診断することができれば、あなたはそれらのモデルを改善するために、適切な方法を選択することができます。
    私は最後にそれがどのような違いを生むん、あまりにも多くのようないくつかの混乱、誤差、偏差、分散音を持ってここを参照してください?
    図1差偏差、分散
    [ここでは機械学習とは何の関係もありません:図1は、トップが図のショーを残して、管理面を感じ感の中に無意識のうちにありますが、実際にはかなり稀である優れたリーダーシップ(戦略的意思決定)といい、スタッフ(戦術的な実行レイヤー) 、図に示すリーダーシップとの違いの左下隅に優れたリーダーシップと右上(戦略的意思決定)従業員(戦術的な実行層)との差を表している(戦略的意思決定)といい、スタッフ(戦術的な実行層)と右図に示すの下隅従業員(戦術的な実行層)との間に(戦略的意思決定)差のリーダーシップとの違い。このことから、どのように重要な良い戦略的な意思決定を見ることができます!
    図のモデルの複雑さとの間の関係。2、エラー偏差、分散
    図3の機械学習プロセスは、適切なFを見つけることです^
    分散比複雑なモデル(例えば、式5)により引き起こされる単純なモデル(例えば、線形方程式)は、図3に小さい分散をもたらした。4。
    図4の単純なモデル空間制御モデルは、サイズの分散を制御するのに役立ちます
    単純なモデルは、制御分散に役立ちますが、選択範囲の先頭が^ Fが含まれていない場合は、ずれによる* Fはまた、非常に可能性がエラーになることです。が、5。
    図5
  • 偏差からエラーが、それはトレーニングセットunderfittingであることが多い場合(underfitting)
  • その後、上の多くの場合、トレーニングセットを過剰適合からの誤差分散は、(過剰適合)した場合
    6
    にエラーがあるから:機械学習の必要性は、一つのことを理解するには?偏差た場合、どのようにしますか?分散した場合、我々はどのようにすればよいですか?7。
  • (データは良いフィットのFではない時間をunderfittingする場合)は、f ^ fがされていないので、それがこの時間からの偏差は、モデルを再設計する必要がありますされて含ま
  • オーバーフィッティングが、それは誤差分散から来た場合は、この時間は、2つの方法があります。
    • 増加したデータ:ほとんど万能薬では、バイアスを傷つけるが、一つの欠点は、あまりにも高コストでありません
    • 正則:それは滑らかな曲線であります
      図7

第二に、ノートに物事のプロセスのモデルを選択してください

通常、我々は適切なモデルを見つけるために、バイアスと分散の間のバランスを見つけることができます。しかし、必ずこのような何かを行うにはないこと:
あなたがテストセットにエラーが発生しますので、直接、すべてのトレーニングセットを直接選択モデルをテストセットの実際のエラーを反映するものではありません。8。
描画するときに行うにはないものを8選択モデル
だから我々はどのようにすればよいですか?

  • その後、選択された誤差モデルの最初の2セットでのトレーニングと検証セットにトレーニングセット(検証セット)は、比較的小さく、誤差の大きさを比較するために、彼のテストセットを取る:クロスバリデーション。あなたが最初のステップ自体が大きなだけでなく、トレーニングセットポイントではないと思われる場合は、再度、あなたは全体のトレーニングセットした後、確認のために右モデルを選択することができます。だから、基本的には本当のテストセットでのテスト・セット・エラー・モデルを反映することができます。9。
    図9
    あなたは、テストの独自のサブセットを心配している場合の偏差をもたらすかもしれない、あなたは小さなトレーニングセット1のグループにN倍クロスバリデーション、トレーニングセットを行うことができ、2小さなトレーニングセット、検証は小さく設定し、モデルで最小のエラーが出ますあなたは、トレーニングセットの全額にトレーニングを続けることができます。10。
    10
    テストセットの偏差性能が比較的大きい場合、彼らはプライベートテストセットに表示する可能性がありますので、ここでは特に言及CHANG教師、訓練セットで選択したモデルは、、、戻って、大規模なモデルのものを誤り性能を選択しないでください大きな誤り。

おすすめ

転載: www.cnblogs.com/leogoforit/p/12597650.html