統計的学習方法5-決定木

  • デシジョンツリー:判別モデル

  • 問題の説明:サンプルのバッチがK個のカテゴリーに分類されると仮定します。その中で、これらのサンプルにはA特性があります。特徴に応じてレイヤーごとに分割されたツリー構造を生成する方法。
    ここに画像の説明を挿入します

  • デシジョンツリー生成のアイデア:分類にはA機能がありますが、最初に分類基準としてどの機能を選択する必要がありますか?この問題を解決するために、決定木はまず、男性寮の条件下で誰がiPadを持っているかを判断するなど、サンプルの特性の識別能力を判断します。分類を判断するための特性として性別を使用する場合、メリットは非常に小さいです。生活費をどれだけ判断するかを使用する場合、この分類は非常に役立ちます。ここでの決定木は、情報ゲインを使用して、特徴Aiが分類に与える影響を判断します。まず、分類の区別が大きい特徴を選択し、次に他の特徴を使用して順番に分割します。

  • 情報ゲイン:
    エントロピー:混乱
    程度の尺度確率変数のエントロピーは、そのさまざまな値の確率によって定義できます
    。H(X)= − ∑ i = 1 npilogpi H(X)=-\ sum_ {i = 1} ^ {n} p_ {i} logp_ {i}H X =i = 1n個pl o g p
    情報ゲイン:特徴Aの情報ゲインg(D、A)をトレーニングデータセットDに定義します。これは、セットDの経験的エントロピーH(D)および特徴Aの特定の条件下でのDの経験的条件H( D∣A)
    g(D、A)= H(D)-H(D∣A)の差
    特徴Aの値に従って、Dはn個のサブセットD 1、D 2、...、Dに分割されます。 n D_ {1}、D_ {2}、...、D_ {n}D1D2Dn個
    ここに画像の説明を挿入します

  • 情報ゲイン比:
    ここに画像の説明を挿入します
    分母は、データセットのエントロピーを計算するためにカテゴリを置き換えるために特徴Aが使用されることを示します。

デシジョンツリー生成アルゴリズム:

  • ID3アルゴリズム:特性判断基準として情報ゲインを取る
  • C4.5:特性判断基準として情報ゲイン比を採用
    決定ツリープルーニングアルゴリズム:
  • 剪定の理由:分類が細かすぎて、トレーニングデータによく適合しますが、未知のデータに対する分類効果は良くありません。つまり、過剰適合です。ツリーの複雑さを考慮してください。
  • 最初の枝刈り(つまり、生成プロセス中の枝刈り):
    決定木の高さを設定し、高さに達したら続行を停止し
    ます。リーフノードに含まれるサンプルの最小数を設定します。
    追加の各ノードのパフォーマンスを計算し、しきい値を設定する停止する
  • 剪定後(最初に完全なツリーを生成し、次に剪定する):剪定の
    前後の損失関数を計算し、それが剪定されているかどうかを比較して観察します。
    複数の剪定アルゴリズムもあります。

誘導
参照:
https //blog.csdn.net/Smile_mingm/article/details/108386197?spm = 1001.2014.3001.5501

おすすめ

転載: blog.csdn.net/weixin_48760912/article/details/114682939