機械学習シリーズ4:モデルタイプ

モデルタイプ

パラメータモデル

統計モデルの全体的なパラメータは、通常、多数のパラメータによって決定される特定の分布に従うと仮定されるモデル構造のモデルパラメータに基づいて、(プロファイルによって決定さをあまりにも平均および分散である)と呼ばれます

含めます

  • ロジスティック回帰
  • 線形成分分析
  • パーセプトロン

利点

  • クリーンルーム:理論は結果を理解し解釈するのは簡単です
  • 高速:モデルの速度パラメータはすぐに学び、訓練されています
  • 以下のデータ:データにはない優れたフィット感も良く行われている間は通常、大量のデータを必要としません

リミット

  • 制約:自分自身を学ぶの形で選択した機能は、モデルを制限方法
  • 限定複雑さ:簡単な質問に通常のみ応答
  • 小さなフィット:実際には、多くの場合、目的関数とポテンシャルと一致しません

ノンパラメトリックモデル

人口の分布は仮定を行うものではありません、ただ一般的には確率変数であることを知って、分布(分布パラメータがあるかもしれない)が存在するが、唯一に、その分布の形を知ることはできませんが、分布のパラメータを知りません所与の試料におけるいくつかの条件は、非パラメトリック統計の方法に従って推定することができます。

フォームの目的関数は、機械学習アルゴリズムと呼ばれるノンパラメトリックアルゴリズムの、あまりにも多くの仮定をしない、我々は仮定をしない、アルゴリズムは、トレーニングデータから学習機能の任意の形式の自由です。

未知のデータへのいくつかの一般化の能力を維持しながら、最高のフィット感のためのトレーニングデータの目的関数を求める過程におけるノンパラメトリックな理論。同様に、彼らは、フォームの各機能を収めることができます。

K近傍法:目的は、新しいデータを予測するk個の最も類似モデルに基づいており、同様のモデルの数に加えて、フォームの目的関数の理論は、任意の仮定をしないでください

含めます

  • ツリー、CART、C4.5
  • ナイーブベイズ
  • サポートベクターマシンSVM
  • 神経回路網

利点

  • 変動:あなたは、多くの異なる関数形にフィットすることができます
  • パワフルなモデル:目的関数の仮定やメイクの仮定が小さなことはありません。
  • 良好なパフォーマンス:予測性能を得るために非常に良いことができます

制限

  • より多くのデータが必要とされています。目的関数の必要性のためのフィットは、より多くのデータを訓練します
  • スロー:理由はもっとトレーニングパラメータを必要とするため、訓練プロセスは、通常は遅いです
  • 過剰適合:オーバーフィッティングの高いリスクがあり、予測のためにも説明することがより困難です

距離モデル

含めます

  • 直線回帰
  • SVM
  • 物流回帰
  • KNN
  • K-手段

前処理

  • 長い時間、最高の最初の次元削減のためのプロパティ、ように意味のあるデータ無意味なデータを紛らすしません
  • サンプルの密集エリアを参照していますヒストグラム解析を使用する前に
  • 標準化は、大規模なプロパティの値がより多くの重量を持っていないようにするために、使用前に各プロパティのために行われる必要があります
  • 前の経験に基づいて、各属性に割り当てられた異なる重みを使用
  • 直接個別のないデータのために、核の変換機能を使用することを検討し、その後距離を算出し、

l61GkQ.png

おすすめ

転載: www.cnblogs.com/monkeyT/p/12160707.html