第6章機械学習システムの設計
1推奨アプローチ
- すぐに実装できる単純なアルゴリズムから始めます。実装して、交差検証データでテストします。
- 学習曲線をプロットして、より多くのデータ、機能などが役立つ可能性があるかどうかを判断します。
- エラー分析:アルゴリズムがエラーを起こした(交差検証セットの)例を手動で(人工的に)調べます。エラーが発生している例のタイプに系統的な傾向(システム化化趋势)があるかどうかを確認します
2スキュークラスのエラーメトリック(スキュークラスのエラーメトリック)
ハプニング | 予測する | 実際の |
---|---|---|
真陽性、TP | 本当 | 本当 |
真陰性、テネシー州 | 偽 | 偽 |
誤検知、FP | 本当 | 偽 |
偽陰性、FN | 偽 | 本当 |
2.1精度(精度)
- P recision = TPTP + FP Precision = \ frac {TP} {TP + FP} PのR E C I S I O N=T P + F PT P
2.2リコール(リコール率)
- R ecall = TPTP + FN Recall = \ frac {TP} {TP + FN} R E C A L L=T P + F NT P
2.3精度とリコールのトレードオフ
- F1スコア:2 PRP + R 2 \ frac {PR} {P + R}2P + RP R
3機械学習のデータ
- アルゴリズム:
(1)知覚(ロジスティック回帰)
(2)Winnow
(3)メモリベース
(4)Naive Bayes - 勝つアルゴリズムは誰が持っているかではありません。最も多くのデータを持っているのはそれです。
- 大量のデータが合理的:
(1)多くのパラメーターを持つ学習アルゴリズムを使用→ J train(θ)J_ {train}(\ theta)JtがrのI Nを(θ )は小さくなります
(2)非常に大きなトレーニングセットを使用します→J train(θ)J test(θ)J_ {train}(\ theta)J_ {test}(\ theta)JtがrのI Nを(θ )JトンのE S T(θ )
(3)from(1)+(2)→J test(θ)J_ {test}(\ theta)JトンのE S T(θ )小さくなります
4高精度学習システムの設計
- 特徴値から情報を予測することは可能ですか
- 大量のデータ+マルチパラメータアルゴリズム
5リファレンス
ウーエンダ機械学習コースラ機械学習
黄海光機械学習ノート