ディシジョン・ツリーノート(続きます)

ディシジョン・ツリーノート(続きます)

ディシジョン・ツリー

ディシジョン・ツリーの基礎

決定木を生成することは、再帰的なプロセスです。基本的な決定木アルゴリズムでは、3つの状況があり、再帰的リターンにつながることができます:
①現在のノードのサンプルは、同じカテゴリ、分割なしの完全な部分が含まれています。②属性の現在のセットが空である、または全てのサンプルのすべてのプロパティに同じ値を、分割しません。現在のノードに含ま③サンプルセットが空の場合、それは分割できません。

部門を選択

1.情報ゲイン

エントロピーは、最も一般的な指標を用いたサンプルセットの純度の尺度です。
現在のサンプルセットは、Dのk番目のサンプルの割合クラスPK(| k = 1,2、...と仮定 Y |)、 Dはエントロピーである:
エントロピ
小さい値耳鼻咽喉科(D)、Dの純度高いです。

プロパティは、離散可能な値V(A1、A2、...... AV)を有する場合 、 分割Dの使用は、分岐がVノード生成する、DVがDの値内のすべてのプロパティと呼ば(V)サンプル、情報利得の:
情報利得
我々は、情報分割プロパティ選択決定木を得ることができるので、一般に、より大きな利得情報、それは、大きなアップグレードのプロパティ分割の純度を意味します。有名なID3決定木学習アルゴリズムは、基準としての情報を得ることです。

2.増加率

「いいえ」の選択は、Nブランチを生成するn個のサンプル、各ノードであるため、典型的なプロセスでは、意図的に、それはプロパティを分割しないように、「番号」を無視することを選択し、明らかに、それは、合理的ですこれは、完全な決定木を持っていない、この一般化は、それは望ましいことではない、純度が最大に達している、唯一つのサンプルが含まれています。

実際には、これらのプロパティの値は、このような好みの可能性の副作用を軽減するように、ゲイン情報を使用してより多くの時間を好むだろう、知らC4.5決定木アルゴリズムは、速度を得るために代わりに選択する、直接ゲイン情報を使用しません。
ゲイン率
IV()と呼ばれるユニークな値より少ない嗜好属性ペアのゲイン値ことに留意されたいです
注:上記平均プロパティ候補選択情報利得の分割で開始し、次いで最高利得率を選択:C4.5アルゴリズムは、選択候補が財産分割の最大速度を得るが、直接ではありません。

ジニ係数

CART決定木分割プロパティを選択するために、ジニ係数を使用。
ジニ値:
ジニ値
Dデータセットの純度ジニ値が小さいほど、より高いです。

ジニ係数:
ジニ係数
宿泊施設の最適な部門として最小のプロパティジニ係数を選択しました。

3.剪定方法

ディシジョン・ツリーの剪定は、「オーバーフィット」を扱うための主要な手段です。
できるだけ正しいとサンプルを分類するためにプロセスを学習決定木では、ノードの分割プロセスが時々過度の枝につながる、繰り返されることになる、それが学習サンプルに機能のいくつかを学ぶ必要がありますそのトレーニングセットの唯一の良い部分また、データの一般的な性質として、そのため、我々は、オーバーフィッティングの危険性を低減するために剪定イニシアチブを取る必要があります。

剪定は、「事前に剪定」とに分かれている「剪定します。」
事前剪定:生成された決定木、分割前の各ノードの推定値は、機能がもたらす一般化を改善されない場合は、停止され、分割マークは、現在のノードがリーフノードです。
剪定した後、その後、完全な決定木を生成するために、トレーニングセットを起動して、円周方向に非リーフノードの下から検査するために、リーフノードに対応するサブツリーが汎化性能を向上させることができるかどうかのノードを置き換えます。リーフノードとしてマークされたサブツリー。

前の剪定

前剪定木の枝の多くがオーバーフィッティングのリスクを低減するだけでなく、大幅に決定木のテスト時間のオーバーヘッドの時間とコストを訓練減少しますが、一方で、いくつかの枝の電流分割、ではないがこれだけではなく、展開されていませんします事前剪定はunderfittingリスクをもたらす可能性があり、ある大幅に性能向上につながる可能性があるとしても、その区分に基づいてパフォーマンスの一般化が一時的に減少したが、フォローアップにつながり、汎化性能を強化。

剪定後

あまりフィット少しリスクを剪定した後、通常、通常の状況下では、複数の事前剪定木の枝より予約ツリー、決定木を剪定した後、あらかじめ剪定汎化性能は、多くの場合、より良い木よりもですが、剪定プロセスのニーズが決定木は完全に生成された後に行われるべきではなく、ボトムアップからの一つ一つを検討し、それはトレーニング時間がかかります。

欠損値を持つ連続4

連続した値を処理

実際の学習課題は、連続属性に遭遇した決定木の議論だけ離散属性、以上を踏まえ、より良い連続する属性は、値の数が限られなくなっているよりも、そのため、直接の可能な値をもとに分類することができません。
この時点で、我々は離散化を使用する必要があります。最も単純な戦略は何である二分法の選択、であるC4.5決定木アルゴリズムシステムで使用されます。

示されるサンプルセットおよび連続属性所与D、Dにおけるn個の異なる値ことが想定されている、昇順に、これらn個の値、{A1、A2、......}。Dは、(サンプルの属性値がtよりも大きくない)ことができ、Dtの+(サンプルTのプロパティに値より大きい) - Dtとに分割点tに基づきます。

隣接のプロパティ値Aiと第(i + 1は)、同様の効果が[(2 I +)愛]間隔Tに分割されて生成された任意の値をとり、従って、連続的な属性で、私たち調査部門は、候補のn-1個の要素の集合を含んでいてもよいです
Ta

即ち間隔は[(I + 1、愛 )) サイトの(Al(I + 1 + )/ 2) 候補分割点として処理と、その後にすることができる画像処理離散:
ゲイン(D、A)
注:離散異なる属性現在のノードが子孫ノードの分割特性として使用することができる連続的な属性プロパティに分割されている場合。

欠損値

単に不完全なサンプルを破棄した場合、いくつかのサンプルの特定の性質は、明らかに、サンプルのみを使用して、ミッシング値は学びませんし、多くの場合、データ情報の廃棄物が欠落しています。

今、2つの問題がある:プロパティ値の損失、およびどのようにプロパティの選択を分割する場合には。
プロパティの所定の分割を、財産上の失われたサンプルであれば、どのように分割します。

問題①:プロパティのメリットだけ〜D.に応じて決定することができます
ρの割合を欠落することなく、サンプルの値を示し
〜P(k)はk番目のクラスのサンプルの非欠損値の割合を表す占有
〜R(V)特性にサンプル値(V)などのミッシング値を示していません試料の割合

ここに画像を挿入説明
ここに画像を挿入説明
ここに画像を挿入説明
問題②:
サンプル値xは財産の分割で公知である場合、それに含まれる子ノードに対応し、xの値は、Wは、子ノードに保持され、サンプルの重量(xは)。
試料中のxの値が属性を分割した場合、xはすべてのサブノードに割り当てられている間、不明であり、対応するサブノードの属性値でのサンプル重量(V)は、〜R(V)に調整します* 、W(X)。

5.多変量決定木

公開された25元の記事 ウォン称賛19 ビュー10000 +

おすすめ

転載: blog.csdn.net/weixin_42605042/article/details/85217905