【機械学習】6機械学習システムの設計

1推奨アプローチ

  1. すぐに実装できる単純なアルゴリズムから始めます。実装して、交差検証データでテストします。
  2. 学習曲線をプロットして、より多くのデータ、機能などが役立つ可能性があるかどうかを判断します。
  3. エラー分析:アルゴリズムがエラーを起こした(交差検証セットの)例を手動で(人工的に)調べます。エラーが発生している例のタイプに系統的な傾向(システム化化趋势)があるかどうかを確認します

2スキュークラスのエラーメトリック(スキュークラスのエラーメトリック)

ハプニング 予測する 実際の
真陽性、TP 本当 本当
真陰性、テネシー州
誤検知、FP 本当
偽陰性、FN 本当

2.1精度(精度)

  • P recision = TPTP + FP Precision = \ frac {TP} {TP + FP} PのR E C I S I O N=T P + F PT P

2.2リコール(リコール率)

  • R ecall = TPTP + FN Recall = \ frac {TP} {TP + FN} R E C A L L=T P + F NT P

2.3精度とリコールのトレードオフ

  • F1スコア:2 PRP + R 2 \ frac {PR} {P + R}2P + RP R

3機械学習のデータ

  • アルゴリズム:
    (1)知覚(ロジスティック回帰)
    (2)Winnow
    (3)メモリベース
    (4)Naive Bayes
  • 勝つアルゴリズムは誰が持っているかではありません。最も多くのデータを持っているのはそれです。
  • 大量のデータが合理的:
    (1)多くのパラメーターを持つ学習アルゴリズムを使用→ J train(θ)J_ {train}(\ theta)JtがrのI Nをθ は小さくなります
    (2)非常に大きなトレーニングセットを使用します→J train(θ)J test(θ)J_ {train}(\ theta)J_ {test}(\ theta)JtがrのI Nをθ JトンのE S Tθ
    (3)from(1)+(2)→J test(θ)J_ {test}(\ theta)JトンのE S Tθ 小さくなります

4高精度学習システムの設計

  1. 特徴値から情報を予測することは可能ですか
  2. 大量のデータ+マルチパラメータアルゴリズム

5リファレンス

ウーエンダ機械学習コースラ機械学習
黄海光機械学習ノート

おすすめ

転載: blog.csdn.net/qq_44714521/article/details/108461342