ID3決定木アルゴリズムのシリーズの一つ

1決定木とは何ですか

  • 思考のオブジェクトを見つけることが似て人気の、決定木の分類
  • 女の子は彼女のボーイフレンドを紹介する少女の母親を与える(分類、見るかどうか)
  • 女の子は標準の独自のセットを持っています
ルックス 収入 職業 会いますか
醜いです 高いです 矢印のチームマネージャー 表示されていません
適度 低いです 大学生のボディ会長 表示されていません
適度 適度 記者NN 表示されていません
適度 高いです 上場企業CTO 見ます
元帥 適度 公務員 見ます

       その後、次の対話があります

       娘:長いハンサムかどうか?
       母:非常にハンサム。
       娘:高収入ではないでしょうか?
       母:メディアシナリオ、非常に高くはありません。
       娘:公務員ではないでしょうか?
       母:それは税務局に取り組んでいます。
       娘:まあ、私は見に行きました。

2決定木のアプローチ

       あなたは、プロパティの判断を選択するたびに、決定的ではない場合は、その選択を続けて
、彼はあなたが「間違い」を判断できるまで判断する属性

       ルックス - >収入 - >キャリア

       この機械学習にする方法プログレッシブ関係を、と考えるの優先順位プロパティのような木の分類構造を?


図1の単純な決定木

決定木の構築3

  • ステップ1:ステップ2にノードが進むにつれてすべてのデータ。
  • ステップ2:ステップ3に進み、分割ノードからのデータ特性をピック。
  • ステップ3:条件が満たさ分割停止と判定された場合、それぞれの子ノードを子ノードを複数生成し、ステップ4に進み、そうでない場合、ステップ2に進みます。
  • ステップ4:ノードを設定し、子ノード、カテゴリの数の最大割合のための出力ノードです。

       だから、3つの質問があります:
       (1)データ分割方法
       、分割離散データが
       連続データをセグメント化

       (2)財産の分割を選択する方法を
       分割アルゴリズム(ID3のC4.5カートを)

       分割を停止する場合(3)
       ノードの最小数、ツリーの深さを、すべての機能は、最大使用されています

データセットの分類を行うために4

天気 温度 湿度 風があります 屋内テニスかどうか
明確な 高いです ノー ノー
明確な 高いです それはあります ノー
高いです ノー それはあります
暖かいです 高いです ノー それはあります
クール ノー それはあります
クール それはあります ノー
クール それはあります それはあります
明確な 暖かいです 高いです ノー ノー
明確な クール ノー それはあります
暖かいです ノー それはあります
明確な 暖かいです それはあります それはあります
暖かいです 高いです それはあります それはあります
ノー それはあります
暖かいです 高いです それはあります ノー

5 IDアルゴリズム

       D | |トレーニングセットは、Dのサンプルの総数であり、
       iは、カテゴリの数がある| CI |トレーニングセット有するNクラス、
       (A2 ... A1)AプロパティN個の異なる離散値を有するものとする
       と仮定値Da1と| | Da1と、数のA1のサンプルセット、番号がj番目のクラスに属している| | Da1と、jを
       想定したサンプル値a2がDa2を、数を設定されている| Da2を|、j番目のクラスに属しますDa2に、J | |の数
       ...
       ダン、数のサンプル値のセットを想定|ダン|ダン、J |数はj番目のクラスに属し、あります|

       (1)计算数据集D的经验熵
\ [H \左(D \右)= - \和\ limits_ {i = 1} ^ N {\ FRAC {{\左| {{C_I}} \権|}} {{\左| D \権|}}} \ログの\ FRAC {{\左| {{C_I}} \権|}} {{\左| D \権|}} \]

       (2)计算属性A对数据集D的经验条件熵
\ [Hの\左({D \左|。A \右} \右)= \和\ limits_ {i = 1} ^ nは{\ FRAC {{ \左| 右\ {{D_は{愛}}} |}} {{\左| Dの\右|}}}のH \左({{D_ {AI}}} \右)= \和\ limits_ {i = 1} ^ nは{\左({\ FRAC {{\左| {{D_ { AI}}} \右|}}、{{\左| D \右|}} \左({ - \和\ limits_ {J = 1} ^ N {\ FRAC {{\左| {{D_ {AI、 J}}} \権|}} {{\左| {{D_ {AI}}} \権|}} \ログの\ FRAC {{\左| {{D_ {AI、J}}} \権|} } {{\左| {{D_ {AI}}}右\ |}}}} \右)} \右)} \]

       (3)计算属性A信息增益
\ [G \左({D \左|。A \右} \右)は{\ RM {=}} Hの\左(D \右) - H \左({D \左|右\ A} \右)\]。

       選択されたようにG(D | A)の決定の最適な分割として最大属性のプロパティ

具体例6

       経験エントロピー(1)のデータセットDを算出する
       合計14個の試料、9正の場合は、5負の場合は
\ [H \は(D \左 \左({\ FRAC {{\のRM {9}} -右)= } {{{\のRM {14 }}}} \ログ\ FRAC {{\のRM {9}}}、{{{\のRM {14}}}}は{\ RM {+}} \ FRAC {{\のRM { 5}}}、{{{\の RM {14}}}} \ログの\ FRAC {{\のRM {5}}}、{{{\のRM {14}}}}} \右)は{\ RM {=}} 0.2830 \]

       (2)Dが経験条件付きエントロピー(天候属性)が算出される属性データセットを
       合計晴れ、曇り、雨の3つのプロパティ天候
       ので、天気=クリア、2正例、3例の負の

\ [H \左({D \左|右{{A_晴}} \を} \右)= - \左({\ FRAC {2} {5} \ログの\ FRAC {2} {5} { \ RM {+}} \ FRAC {3} {5} \ログの\ FRAC {3} {5}} \右)は{\ RM {=}} 0 {\ RMの{2923}} \]

       =曇りの天候は、4つの正の場合は、0、負の例では、
\ [H \左({D \左| {{A_ 雌}} \右} \右) = - \左({\ FRAC {4 } {4} \ログの\ FRAC {4} {4} {\のRM {+}} \ FRAC {0} {4} \ログの\ FRAC {0} {4}} \右){\ RMを{0} } \]

       =雨の天候、3正例、2例の負ので
\ [Hの\左({Dは \左| {{A_の雨}} \右} \右) = - \左({\ FRAC {3 } {5} \ログの\ FRAC {3} {5} {\のRM {+}} \ FRAC {2} {5} \ログの\ FRAC {2} {5}} \右)は{\ RM {=}} 0 {\ RMの{2923} } \]

       したがって、条件付きエントロピー天候属性が経験
\ [Hの\左({Dの左\ |。A \右}右\)= \ FRAC {{\のRM {5}}}、{{{\のRM {14}}}} \ CDOT 0 {\ RMの{ 2923 +}} \ FRAC {{\のRM {4}}}、{{{\のRM {14}}}} \のCDOT {\のRM {0 +}} \ FRAC {{\ RM {5}}}、{{{ \のRM {14}}}} \ CDOT 0 {\ RMの{2923}} = 0 {\のRM {2}} 0 {\のRM {87}} \]

       情報ゲイン(3)気象属性
({D \ [G \左 \左| A \右} \右)= H \左(D \右) - H \左({D \左| A \右。 } \右)= 0.0 {\の RM {743}} \]

       同じ情報ゲインがあるかどうか、温度、湿度、風を計算することができます。

プロパティ 情報利得
天気 0.0743
温度 0.0088
湿度 0.0457
風があります 0.0145

       したがって、最大の情報があり、天候の意思決定を選択するために、天気、最初の決定ツリーノードを得ます:




図2ツリーにノード

おすすめ

転載: www.cnblogs.com/Kalafinaian/p/11702811.html