1決定木とは何ですか
- 思考のオブジェクトを見つけることが似て人気の、決定木の分類
- 女の子は彼女のボーイフレンドを紹介する少女の母親を与える(分類、見るかどうか)
- 女の子は標準の独自のセットを持っています
ルックス | 収入 | 職業 | 会いますか |
---|---|---|---|
醜いです | 高いです | 矢印のチームマネージャー | 表示されていません |
適度 | 低いです | 大学生のボディ会長 | 表示されていません |
適度 | 適度 | 記者NN | 表示されていません |
適度 | 高いです | 上場企業CTO | 見ます |
元帥 | 適度 | 公務員 | 見ます |
その後、次の対話があります
娘:長いハンサムかどうか?
母:非常にハンサム。
娘:高収入ではないでしょうか?
母:メディアシナリオ、非常に高くはありません。
娘:公務員ではないでしょうか?
母:それは税務局に取り組んでいます。
娘:まあ、私は見に行きました。
2決定木のアプローチ
あなたは、プロパティの判断を選択するたびに、決定的ではない場合は、その選択を続けて
、彼はあなたが「間違い」を判断できるまで判断する属性
ルックス - >収入 - >キャリア
この機械学習にする方法プログレッシブ関係を、と考えるの優先順位プロパティのような木の分類構造を?
図1の単純な決定木
決定木の構築3
- ステップ1:ステップ2にノードが進むにつれてすべてのデータ。
- ステップ2:ステップ3に進み、分割ノードからのデータ特性をピック。
- ステップ3:条件が満たさ分割停止と判定された場合、それぞれの子ノードを子ノードを複数生成し、ステップ4に進み、そうでない場合、ステップ2に進みます。
- ステップ4:ノードを設定し、子ノード、カテゴリの数の最大割合のための出力ノードです。
だから、3つの質問があります:
(1)データ分割方法
、分割離散データが
連続データをセグメント化
(2)財産の分割を選択する方法を
分割アルゴリズム(ID3のC4.5カートを)
分割を停止する場合(3)
ノードの最小数、ツリーの深さを、すべての機能は、最大使用されています
データセットの分類を行うために4
天気 | 温度 | 湿度 | 風があります | 屋内テニスかどうか |
---|---|---|---|---|
明確な | 熱 | 高いです | ノー | ノー |
明確な | 熱 | 高いです | それはあります | ノー |
陰 | 熱 | 高いです | ノー | それはあります |
雨 | 暖かいです | 高いです | ノー | それはあります |
雨 | クール | で | ノー | それはあります |
雨 | クール | で | それはあります | ノー |
陰 | クール | で | それはあります | それはあります |
明確な | 暖かいです | 高いです | ノー | ノー |
明確な | クール | で | ノー | それはあります |
雨 | 暖かいです | で | ノー | それはあります |
明確な | 暖かいです | で | それはあります | それはあります |
陰 | 暖かいです | 高いです | それはあります | それはあります |
陰 | 熱 | で | ノー | それはあります |
雨 | 暖かいです | 高いです | それはあります | ノー |
5 IDアルゴリズム
D | |トレーニングセットは、Dのサンプルの総数であり、
iは、カテゴリの数がある| CI |トレーニングセット有するNクラス、
(A2 ... A1)AプロパティN個の異なる離散値を有するものとする
と仮定値Da1と| | Da1と、数のA1のサンプルセット、番号がj番目のクラスに属している| | Da1と、jを
想定したサンプル値a2がDa2を、数を設定されている| Da2を|、j番目のクラスに属しますDa2に、J | |の数
...
ダン、数のサンプル値のセットを想定|ダン|ダン、J |数はj番目のクラスに属し、あります|
(1)计算数据集D的经验熵
\ [H \左(D \右)= - \和\ limits_ {i = 1} ^ N {\ FRAC {{\左| {{C_I}} \権|}} {{\左| D \権|}}} \ログの\ FRAC {{\左| {{C_I}} \権|}} {{\左| D \権|}} \]
(2)计算属性A对数据集D的经验条件熵
\ [Hの\左({D \左|。A \右} \右)= \和\ limits_ {i = 1} ^ nは{\ FRAC {{ \左| 右\ {{D_は{愛}}} |}} {{\左| Dの\右|}}}のH \左({{D_ {AI}}} \右)= \和\ limits_ {i = 1} ^ nは{\左({\ FRAC {{\左| {{D_ { AI}}} \右|}}、{{\左| D \右|}} \左({ - \和\ limits_ {J = 1} ^ N {\ FRAC {{\左| {{D_ {AI、 J}}} \権|}} {{\左| {{D_ {AI}}} \権|}} \ログの\ FRAC {{\左| {{D_ {AI、J}}} \権|} } {{\左| {{D_ {AI}}}右\ |}}}} \右)} \右)} \]
(3)计算属性A信息增益
\ [G \左({D \左|。A \右} \右)は{\ RM {=}} Hの\左(D \右) - H \左({D \左|右\ A} \右)\]。
選択されたようにG(D | A)の決定の最適な分割として最大属性のプロパティ
具体例6
経験エントロピー(1)のデータセットDを算出する
合計14個の試料、9正の場合は、5負の場合は
\ [H \は(D \左 \左({\ FRAC {{\のRM {9}} -右)= } {{{\のRM {14 }}}} \ログ\ FRAC {{\のRM {9}}}、{{{\のRM {14}}}}は{\ RM {+}} \ FRAC {{\のRM { 5}}}、{{{\の RM {14}}}} \ログの\ FRAC {{\のRM {5}}}、{{{\のRM {14}}}}} \右)は{\ RM {=}} 0.2830 \]
(2)Dが経験条件付きエントロピー(天候属性)が算出される属性データセットを
合計晴れ、曇り、雨の3つのプロパティ天候
ので、天気=クリア、2正例、3例の負の
\ [H \左({D \左|右{{A_晴}} \を} \右)= - \左({\ FRAC {2} {5} \ログの\ FRAC {2} {5} { \ RM {+}} \ FRAC {3} {5} \ログの\ FRAC {3} {5}} \右)は{\ RM {=}} 0 {\ RMの{2923}} \]
=曇りの天候は、4つの正の場合は、0、負の例では、
\ [H \左({D \左| {{A_ 雌}} \右} \右) = - \左({\ FRAC {4 } {4} \ログの\ FRAC {4} {4} {\のRM {+}} \ FRAC {0} {4} \ログの\ FRAC {0} {4}} \右){\ RMを{0} } \]
=雨の天候、3正例、2例の負ので
\ [Hの\左({Dは \左| {{A_の雨}} \右} \右) = - \左({\ FRAC {3 } {5} \ログの\ FRAC {3} {5} {\のRM {+}} \ FRAC {2} {5} \ログの\ FRAC {2} {5}} \右)は{\ RM {=}} 0 {\ RMの{2923} } \]
したがって、条件付きエントロピー天候属性が経験
\ [Hの\左({Dの左\ |。A \右}右\)= \ FRAC {{\のRM {5}}}、{{{\のRM {14}}}} \ CDOT 0 {\ RMの{ 2923 +}} \ FRAC {{\のRM {4}}}、{{{\のRM {14}}}} \のCDOT {\のRM {0 +}} \ FRAC {{\ RM {5}}}、{{{ \のRM {14}}}} \ CDOT 0 {\ RMの{2923}} = 0 {\のRM {2}} 0 {\のRM {87}} \]
情報ゲイン(3)気象属性
({D \ [G \左 \左| A \右} \右)= H \左(D \右) - H \左({D \左| A \右。 } \右)= 0.0 {\の RM {743}} \]
同じ情報ゲインがあるかどうか、温度、湿度、風を計算することができます。
プロパティ | 情報利得 |
---|---|
天気 | 0.0743 |
温度 | 0.0088 |
湿度 | 0.0457 |
風があります | 0.0145 |
したがって、最大の情報があり、天候の意思決定を選択するために、天気、最初の決定ツリーノードを得ます:
図2ツリーにノード