アンドリュー・ウは、スタンフォード大学の「機械学習」のビデオでノートによると、輪郭だけのリストを取得するために、「統計的学習法」知識李ハングを通じて詳細には触れません。
1つの研究のアドバイス
誤差が大きすぎると、どのように向上させるには?
- 高い標本分散に対処するためのより多くの訓練を使用→
- →高分散に対処するために、より少ない機能を選択
- 高偏差に対処するために選択されたさらなる特徴→
- 多項式→ソリューションは、高い偏差を増加させます
- 減少\(\ラムダ\)偏差高いソリューション→
- 増加した\(\ラムダ\) →高分散に対応
機械学習アルゴリズムの性能評価
データ「シャッフル」、その後、トレーニングとテストセットに分割。典型的には、データの70%をトレーニングセットと、テストセットとしてデータの残りの30%でした。
パラメータを取得するためにトレーニングセットを学び、\(\シータ\)
計算テスト(正則の添加なし)エラー:線形回帰について、コスト関数は、前に使用することができ、ロジスティック回帰法のために、以前のコスト関数に加えて、誤分類0/1と呼ばれる
\ [ERR(H_の\シータを(x)は、Y)= \左\ {\開始{整列} 1 &&なら\ H_ \シータ(X)\ GE 0.5、yは0 \\ &&または\ H_ \シータ(X)\ LT 0.5、Y = = そうでなければ1 \\ 0 && \端{整列} \右。\]\ [試験\誤差= \ FRAC {1} {M_ {試験}} \ sum_ {i = 1} ^ {M_ {試験}} ERR(H_ \シータ(X_ {試験} ^ {(I)})、Y_ {試験} ^ {(I)})\]
モデル選択
テストセット選択電源使用\(D \)を、検証する必要がある→基準が設定されているクロスバリデーションを
クロスバリデーションデータセットの20%トレーニングセットとしてデータの60%が、テストデータセットとして20%を使用して
- パラメータ取得するためにトレーニングセットを学ぶ\(\ ^ {シータ(I)を} \) 、すなわち、複数のモデルを
- 、(正則化項の添加なし)検証認証エラーセットを計算パラメータ与える\(D \)を、すなわち、選択されたモデル
- (正則化項の添加なし)試験誤差を算出、すなわち、モデル試験
機械学習診断(偏差や分散?)
\(D \)大型、高分散; \(D \)は、高い偏差小さいです
偏差:訓練誤差と検証エラーが大きいです
分散:訓練誤差は小さいが、大きな検証エラーは、そのエラーは、検証エラーのトレーニングよりもはるかに大きいです
正則と偏差、分散
\(\ラムダ\)大きい、高い偏差; \(\ラムダ\)が小さく、高分散
可能な試行の範囲を選択します\(\ラムダ\)値:0,0.01,0.02,0.04、...、20
- 彼は12訓練を受けた\(\ラムダ\)値正則モデルを
- 与えることを、検証エラーを計算\(\ラムダ\を)
- テストエラーが計算します
学習曲線を描きます
アルゴリズムを学習することの問題を決定するために使用されます
トレーニングセットの数は、検証エラーが大きく、実質的に平坦に低下させないように、高バイアス、この時間は、より多くの学習サンプルを使用して役に立ちません
分散が訓練にエラーが削減された、エラーを確認するために増加されたトレーニングセットの数の増加に伴い、高い場合には、この時間は、より多くのトレーニングデータを使用したために有用