Pythonの機械学習や放課後の練習小さな問題

ディレクトリ

(競争Kaggleを傷つけるためにPythonの機械学習と実践-----ロード)@

章2.3章の概要終了

1

データの種類に応じたモデルを機械学習は、教師あり学習と教師なし学習2つのカテゴリに分けることができます。

  1. 教師付き学習は、分類と回帰モデルが含まれます。
  • カテゴリー:線形分類、サポートベクターマシン(SVM)、ナイーブベイズ、隣人最も近いk個、決定木、統合モデル(ランダムフォレスト(複数の決定木)、など)。
  • 回帰:線形回帰、サポートベクトルマシン(SVM)、隣人、回帰ツリー、統合モデル(ランダムフォレスト(複数の決定木)、等)の最寄りのk。
  1. 教師なし学習は:データ・クラスタリング(K-means法)、などのデータ削減(主成分分析)とを。

ここに画像を挿入説明

分類モデル

リニア:特性と線形関係の分類結果の存在を仮定し、シグモイド関数を使用すると、線形関係を有するデータを処理するために、0と1にマッピングされます。
科学研究や工学実際にベンチマークとして線形分類器の性能をすることができます。LR分析精度を使用して、確率的勾配上昇モデルパラメータ推定を使用してSGD、短い時間がかかり、幾分低い精度

  • 評価:精度、再現率、精度率、および混合指標後の両方F1

SVM:絶妙なモデルは、データ点の2つだけ離間した最小二つの異なるカテゴリを考慮し、直線性の仮定を前提としています。彼らはいくつかの高次元データの中で最も効果的なトレーニングサンプルを選択することができます。これは、メモリモデルの学習ニーズを節約するだけでなく、モデルの予測性能を向上させますが、コンピューティングリソースと時間の価格を支払いました。

  • 評価:上記でR回帰^ 2 ^、MS(正方形)E、MA(絶対)E.

ベイズ理論に基づくナイーブベイズ(ナイーブベイズ)。前提条件:分類のそれぞれの特徴的寸法との間の互いの条件付き確率独立。

  • 短所:モデルの強い仮定に起因して、直線的に大きさの減少のオーダーの大きさに指数関数から推定されるパラメータは、大幅に計算時間とメモリの消費量を節約できます。しかし、タスクのパフォーマンスの低下強いの特性に関連します。
  • 評価:シンテニー

k個の隣人:ノンパラメトリックモデルに属している引数なしのトレーニング、。非常に高い計算上の複雑さ(平方レベル)とメモリ消費量。

ツリー:直感的な推論ロジックは、明確な解釈可能でも簡単に非直線的な関係を記述するために、モデルの可視化を促進します。モデルを検討すると、機能ノードピッキング順序を考えます。
一般的に使用されるメトリックは、情報エントロピーとジニ不純が挙げられます。そして、理解していません。

統合モデル:代表ランダム森林、そして投票を開始するには、複数の決定木モデルを構築します。
決定木は、ランダムに選択されたノード(ランダム森林)を構築することができ、分類モデルまたはシーケンスで(勾配ツリーGTBリフト)を構築するための
特性:時間のかかる運動を、より良い安定性とパフォーマンスの特性を持っている傾向があります。

私はここを参照してください線形分類指標です。

回帰モデル

R回帰^ 2 ^、MS(四角)だけ変化評価指標、平均二乗誤差E、MA(絶対値)は絶対誤差二乗E.
R ^ 2 ^回帰モデルの結果を測定するために使用されるモデルの能力はまた、戻り値でそれを示唆している、真の値の検証の変動の割合であることができます。

教師なし学習

データクラスタリング

反復k平均は、直感的で非常に実用的な主流の用途を、アルゴリズムです。

  • 局所最適解に収束する簡単
  • クラスタのプリセット数は、必要がある
    観察によりおおよそクラスタ数を比較的合理的な推定値を使用し、「肘」。

    次元削減

    主成分分析(PCA主成分分析)
    性能損失と比較して、モデルの少なくとも一部。次元削減は、時間のトレーニングモデルを大幅に節約することができます。

高度な記事明日

漠然とした感覚は全く正しい、これはすべての基礎ああコールを欠いていません

おすすめ

転載: www.cnblogs.com/love-study-chase/p/12287401.html