アンドリュー・ウ機械学習入門ノート6決定木(スイカブックによって補完)

6ディシジョン・ツリー

6.1構造

  • ルートノード:サンプルコレクション
  • 内部複数のノード:属性テストに対応
  • リーフノードの数:判定結果
  • ==各ノードは==各ノードの接続線の属性、属性値の代表を表します
  • 第1層は、最適な分割属性が選択されたとき、Dの再帰的分割後、選択、最適な分割層の特性は、最終的に決定木を形成します
  • 唯一の部門と呼ばれる決定木の切り株

6.2目的

すなわち、汎化能力、決定木の例を処理する能力を生成する強いん

6.3プロパティのメトリック分割

分割された決定木を有するサンプルは、同じカテゴリに属するものとしてブランチノードに含まれる、すなわち、ノードは、ますます高純度べき

6.3.1 ID3決定木 - 情報利得基準

  • エントロピーは、Dのように定義されます

\ [ENT(D)= - \ sum_ {k = 1} ^ {| Y |} {} p_klog_2p_kの\タグ{6.1} \]

現在のサンプルセットについてD \(P_K \)は、サンプルD、全試料クラスの割合k番目である(ラベルに従って分類)Dの純度情報エントロピー、より高いです

  • 得られた利得の情報を分割Dのように定義された属性

\ [ゲイン(D、A)=耳鼻咽喉科(D) - \ sum_ {V = 1} ^ {V} \ FRAC {| D ^ V |}、{D}耳鼻咽喉科(D ^ V)\タグ{6.2} \]

\(D ^ V \)離散属性である\(A = \) { \(A ^ 1、A ^ 2、\ DOTS、A ^ V \)分割属性後} (^ V \)\オンサンプル。ゲイン情報大きく、より大きなリフトの純度を分割したプロパティを意味しますしたがって、最適な分割アルゴリズム
\ [_ * = \ underset {Aで\} {\のarg \最大} \テキスト{ゲイン}(D、A)\タグ{6.3} \]

6.3.2 C4.5決定木 - 利得比基準

情報利得基準嗜好値が特性のより数とすることができる持っている C4.5決定木アルゴリズムは、プロパティゲインの最適な分割を選択し、そのような悪影響を低減するために、ゲインは次のように定義されている
(\ [\テキスト{Gain_ratio} D、A)= FRAC \ {
\テキスト{ゲイン(D、A)}} {\テキスト{IV}(A)} \タグ{6.4} \] ここで、
\ [\テキスト{IV}( A)= - \ sum_ {V = 1} ^ {
V} \ FRAC {| D ^ V |} {| D |} log_2用の\ FRAC {| D ^ V |} {| D |} \タグ{6.5} \] 属性Aとなります極限値は、属性値がVより多くの、より大きなIVであってもよいです

  • あなたは、プロパティ値の少ない数の優先を有していてもよく見つける財産の分割から始まる、平均以上の情報利得特性を、次に利得の最高速度より選択性の最適な分割として、最適な分割アルゴリズム

  • \ [_ * = \ underset {Aで\} {\引数\最大} \テキスト{Gain_ratio}(D、A)、\テキスト{}ゲイン(D、A)>平均値(ゲイン(D、A) )\タグ{6.6} \]

6.3.3 CART決定木 - ジニ係数測定準

  • 純度は、データセットDジニ指数により測定されます

\ [\テキスト{ジニ}(D)= \ sum_ {k = 1} ^ {| Y |} \ sum_ {K \ NEがK} p_kp_ {K} = 1- \ sum_ {k = 1} ^ { | Y |} p_k ^ 2 \ {6.7} \]

2つのランダムなサンプルを、そのクラスの矛盾マーキング確率でデータセットDから反応ジニ指数。したがってジニ指数、Dの高純度

  • ジニ係数は、属性Aが定義されている
    [\ \テキスト{ジンの\ _index {| D ^ V |} {| D |} \テキスト{ジニ}}(D、A)= \ sum_ {V = 1} ^ Vの\ FRAC (D ^ V)\タグ{
    6.8} \] したがって候補は最小分割侯ジニ、すなわち、最適な分割インデックスプロパティ属性ように選択、設定の属性
    \ [_ * = \ underset {{Aで\} \を引数\分} \テキスト{ジニ \の_index}(D、A)\タグ{6.9} \]

6.4剪定方法

ノード分割処理は時々過度の木の枝で、その結果、繰り返され、自分の特性の一般的性質として、トレーニングセットは、すべてのデータにつながっている過剰適合ので、積極的に過学習のリスクを軽減するために枝の一部を削除し、

6.4.1事前剪定

場合デシジョンツリーは、分割前の推定される各ノードについて、現ノードツリーは汎化性能の改善をもたらすことができない、分裂を停止し、現在のノードは、標識されたリーフノードであります

  • 決定木の多くの枝は、リスクunderfittingを高め、オーバーフィッティングのリスクを軽減、拡大しないだろう

6.4.2を剪定した後、

、非リーフノードを検査するために、次に下から完全な決定木を生成するように設定トレーニングを開始し、置き換えサブツリーのリーフノードツリーに対応するノードは、汎化性能をもたらすことができれば、その後、代わりにサブツリーがリーフノードであります

  • 事前に決定木の枝よりも多くを保持剪定剪定した後、通常は、リスクをunderfittingはずっと前剪定木のないものよりも非常に小さく、汎化性能は、多くの場合、事前に決定木の枝刈りよりも良いですが、剪定やトレーニング時間です

連続した値6.5と欠損値

6.5.1連続値処理

利得異なる情報Tを算出し、分割点tとプロパティに隣接メジアンサンプル値の計算は、時間Tは、最大分割点として取ら
{整列} \開始\ [\テキスト{ゲイン}(D、A)& = \ MAX_ {T_AにおけるT \ } \テキスト{ゲイン}(D、T)\\&= \ MAX_ {T_AにおけるT \} \テキスト{耳鼻咽喉科}(D) - \和_ {\ラムダ\で\ { - 、+、\}} \ FRAC {| D_t ^ \ラムダ|} {| D |} \テキスト{耳鼻咽喉科}(D_t ^ \ラムダ)\端{整列} \タグ{6.10} \]

6.5.2欠損値

  1. 属性の選択した属性値が欠落している除

    情報ゲイン算出式の促進

  2. 指定された属性を分割し、失われたサンプルの属性値を分割します

    各属性の重み値が分割されるサンプルの数に応じて異なる値の数

以上6.6変数決定木

[ピクチャーチェーンダンプ障害(IMG-wkouPzNF-1568602608084)の外(E:\人工知能値下げ\機械学習\写真\ 6.6多変量決定木を分割.PNGです)]

これは、境界をテストするためのプロパティの多くを必要とし、大規模な予測時間のオーバーヘッド。設定内部標準として境界が軸線に平行でないように分割されている非リーフノードは、属性の線形結合であるような形として、\(\ sum_ {i = 1 } ^ {D} w_ia_i = T \) 、線形分類器トレーニング結果を以下に示します

[ピクチャーチェーンダンプ障害(IMG-A3pjsNT6-1568602608094)(E:\人工知能値下げ\機械学習\写真6.6多変量決定木のトレーニング結果.PNG \)外]

おすすめ

転載: www.cnblogs.com/jestland/p/11548516.html