ディシジョン・ツリーの機械学習

ディシジョン・ツリー・アルゴリズム

分類と回帰ツリー(CART、分類および回帰ツリー)
ID3アルゴリズム
C4.5アルゴリズム
。カイ二乗自動相互作用検出器( CHAID) スパニングツリーによって多層分割[7]。
MARS:より良いハンドリングの数値データ。

 

 

ラベルのサンプルを予測する予測モデルとして決定木。このツリーは、分類木や回帰木として知られています。

データは、以下のように表されます。

{\ displaystyle({\ textbf {X}}、Y)=(X_ {1}、X_ {2}、X_ {3}、...、X_ {K}、Y)}

前記Yは、目標値ベクトルであり、xがこれらの特性から成る、X 1、X 2、X 3  目標値を得るために、等が挙げられます。

 

1、「機械学習」ズハウ・ジワからの画像は、第4章

   

情報エントロピーの分割に基づいて決定木、ブックの分割の原理である:情報は、選択後の最大属性の分割分割を得、情報ゲインの算出は、以下のように記述することができます。

$ D - \ sum_ {i = 1} ^ jD_i * \ FRAC {C_I} {C} $

 

このうち、情報エントロピー小さく、より良い、より良い情報は大きなを獲得。情報利得式はDDは、同じサンプルと同じで、誘導されたので、$することができる- \ sum_ {i = 1 } ^ jD_i * \ FRAC {C_I} {C} $ 小さく、よりよい結果。だから私は$最小化することにより、怠惰を盗んだ- \ sum_ {Iを= 1 } ^ jD_i * \ FRAC {C_I} {C} $ 情報利得を最大化する効果を達成するために。ここで、現在の属性によるとディディ分割を表し、クラスII、II遊泳の情報エントロピーは、クラスのサンプル数を表し、CCは、サンプルの総数を表します。例えば、データセットは、この属性の分割結果スイカ「パターン」に基づいて算出される必要がある、「パターン」属性透明でわずかに、情報ゲインは3つのサブカテゴリー分割前の分割を差し引いた後にエントロピー三のファジーカテゴリを貼り付け加重平均エントロピー。
後方分岐、正および負のサンプルおよび百分率比の加重和を割ること:計算エントロピーは次のように記述することができます。


$ - \ sum_ {i = 1} ^ jはP_I * log_2p_i $

 

 アルゴリズムのコアプロセス:

S1は、この場合には、同じタイプのすべてのノードが
すべてのノードS2]の同じ属性
S3]が最適なパーティションプロパティ見つけるため
S4]を再帰的にサブツリーを作成します


参考文献:

  ディシジョン・ツリー

  機械学習の仕事4 - 決定木と枝刈り  

  

おすすめ

転載: www.cnblogs.com/xiaoniu-666/p/10939450.html