XIのモノグラフ研究(CARTアルゴリズム)

XIのモノグラフ研究(CARTアルゴリズム)

  • CARTは、分類と回帰木と呼ばれ、両方の分類のためにも、返すために使用することができます。用いた2元にセグメンテーション値は、左サブツリーが右サブツリーを左、またはダウン前記所定の値よりも大きい場合、特定の値が与えられ、連続変数プロセス。
  • CARTのアルゴリズムステップ
    • ディシジョン・ツリー:再帰的に二分決定木構築し、上から下に構築を開始するために、ルートノードから、できるだけ大きいことが、結果として決定木をプロセスを分割するノードで最高のプロパティを選択し、できるだけトレーニングセットの子ノードを「鈍いです。」
    • 木の剪定:検証データセットによって生成された木の剪定と最小の損失関数として最適なサブツリーの剪定基準を選択します。
  • ジニ係数の計算
    • CARTアルゴリズムデータを測定するためのジニ係数とは、純度や不確実性はないジニ係数は、セグメンテーション問題に値する最適なバイナリのカテゴリ変数を決定する一方で、。
    • 分類はクラスkの確率に属するk個のクラス、サンプル点が存在すると仮定すると、PK、ジニ指数確率分布である


      。\(ジニ(P)= \ sum_ {k = 1} ^ {K} P_ {K}(1 -p_ {K})= 1- \ sum_ {k = 1} ^ {K} P_ {K} ^ {2} \)

    • 特定の機能セットAによる試料DはD1、D2二つの部分に分割されている場合、前記Aで、ジニ指数は集合Dのように定義されます


      。\(ジニ(D、A)= \ FRAC 1 {{}} D_ジニD} {(D_ {}。1)+ \ FRAC D_ {} {2}、{D}ジニ(D_ {2})\)

      ジニ(D、A)異なるグループの不確実性をデータセットDの特徴を表します。サンプル回収の不確実性が大きいほど、ジニ係数の値が大きくなります。

    • C4.5率CARTジニ係数使用して、選択基準ブランチとしての特性を獲得した情報を使用して
      、必ずしもC4.5をバイナリツリーをされていないが、それは、バイナリツリーCARTでなければなりません

おすすめ

転載: www.cnblogs.com/zaw-315/p/11291232.html