データマイニング:モデルの選択 - ツリーモデル

ディシジョン・ツリー

決定木:教師あり学習法はノンパラメトリックである、それは、ツリー図の構造では、意思決定ルールの機能とラベルのシリーズからのデータをまとめることができ、分類および回帰の問題に対処するためにこれらのルールを提示します。
情報を再生するかどうかを判断するために、前記データテーブル以下、非常に直感的な例を与えるために。
ここに画像を挿入説明
状況に属しているかを判断するために、前の情報、新しい情報によると、その後、結論を出します。しかし、単に観点この表から、気持ちは特に厄介になります。直感的に理解することは比較的容易であり、構造のif-then、この状況に対処するために決定木を使用したのだと思う人はそう。
ここに画像を挿入説明
ここでは、決定木のノードのいくつかの概念があります。
ここに画像を挿入説明
決定木学習は、典型的には、3つのステップを含む:特徴選択をし、決定木の剪定ツリーを生成します。どの特徴選択と決定木の剪定は、コアな問題です。

機能の選択

不純

ディシジョンツリーノードは最高の方法と最高の枝を見つけるために、と呼ばれる「ベスト」の指標を測定する必要がある「不純物を。」純度はリーフノードに基づいて計算されていません。
ここに画像を挿入説明
上のカテゴリ決定木のリーフノードなので決定規則は、多数決でその後、リーフノード、90%を占め、カテゴリ、我々はそのカテゴリを好むが、サンプルを宣告された場合は、エラーの確率は非常に低く、カテゴリが他のカテゴリの49%を占め、51%を占めている場合、サンプルが確率が高い障害を言い渡されました。そのため、純度、決定木のトレーニングセットのより良いフィット感を低下させませんそれの純度を測定する方法ではありませんか?ここではエントロピーの概念を導入します。

エントロピーとジニ指数

情報のメトリックエントロピー、情報混乱の度合いを示します詳細については、下の情報エントロピーを命じましたここで式エントロピーです。tはP設定、決定木のノードを表す|接合所与表す(I T)を
サンプル点の割合がクラスに属するiがtは、ノード純粋、この比が高いほどを占めていました。
ここに画像を挿入説明
別のインジケータは、ジニ(ジニ)インデックスは、主にCART決定木の純度を決定するために使用され、より大きなジニ指数、より大きなサンプルセットにおける不確実性式は、
ここに画像を挿入説明
これを説明するには、以下の例は、純度ことなく計算されると:
ここに画像を挿入説明
ここに画像を挿入説明
全体的な目標は、最低純度であるように最適化されたツリーの最終的な、すなわち純度の最小測定値に対応しない、リーフノードではありません
不純物を測定するためのさまざまな方法を使用すると、異なる決定木を生成します。ID3、C4.5、CART分類および回帰木があります。

ID3

不純物を測定するためのID3情報エントロピーは、目標総エントロピーのすべてのリーフノードを最小にすることです。だから、ID3は、分割点を選択したノードの最小の特徴情報エントロピー子ノードがセグメンテーションセグメンテーションが形成されて選択します。親と子ノード間の情報エントロピーは十分な大きさでなければなりません情報利得は両者の違いです。
ここに画像を挿入説明
たとえば:
コンピュータの購買行動が発生するかどうかを判断します。
ここに画像を挿入説明
治療の非存在下で、第1の全エントロピーを計算します。S1およびS2は、分類のレベルに対応するサンプルの数を表します。
ここに画像を挿入説明
何時間カットない、カットオフ年齢点例として本明細書中に0.940の総エントロピー:
ここに画像を挿入説明
情報エントロピーセグメンテーションは0.694です。
ここに画像を挿入説明
ゲイン情報を算出:
ここに画像を挿入説明
次に、情報ゲインの他の特性を計算する:
ここに画像を挿入説明
年齢第1分割点は、情報ゲインは、従って、最大で年齢の第1の特徴として選択したすべてのポイントことを見出しました。除算の計算にあるその他の見所には、あまりにも、最終的に決定木を取得します。
ここに画像を挿入説明

ディシジョン・ツリー

デシジョンツリーモデルの典型的な貪欲モデル、全体的な目標は、グローバル最適なソリューションです(各時間は、情報ゲインを探している最大の分割が特徴)が、特徴と指数関数的に増加した探索空間が増加に提示してグローバル最適なソリューションです。入手困難効率的。
我々は落ち着いて、ステップの導出結果によって局所最適化ステップを使用することを検討-長い最大ゲイン情報として、我々は、最適モデルを得ることができるようになりますよう。もちろん、地元の最適化は、大域的最適に必ずしも等しくありません。
ID3の制限
1.このようなID、IDとして分類レベル以下は多く、したがって、私たちにこの偉大される情報利得を得るために分割するが、IDのない実用的な意義に応じて、そのような分割は問題があります。
IDの意味で、連続変数を扱う2が同じで、データが非常に断片化され、この機能は理にかなっているが、取得した情報ゲインは、素晴らしいことだろうが、他の機能は、公正ではありません。
3.欠損値の存在は、情報利得の計算に影響を与えます。
ツリーは、ツリーカテゴリのリーフノードの深さやが設定値に達した場合にのみ、情報利得を見つけることです4. Aの決定は、停止しますこれは決定木のトレーニングセットの効果は非常に良好であるようになりますが、電車で新しいデータセット設定されていない同じ、テストセットに対する効果を得られることは比較的貧弱です。
ここに画像を挿入説明

C4k5

C4.5は、子ノード情報ゲインの算出方法の総エントロピーの計算にペナルティ項のカテゴリ変数レベルとして添加されます
サンプルの総数の親ノードの子ノードの割合のサンプルのP(V)すなわち総数に|(T I)サンプルカテゴリーのサンプルの、すなわち総数、Pエントロピー計算式。
我々はあまりにも多く、それらの分類レベルを避けるために、自動的にポイントを切断したとき、エントロピーはオーバーフィッティングケースを減らし、モデルの特性の過度の影響を減少させるので、このような分岐指数、。
次のようにIVを計算する:
ここに画像を挿入説明
Pの複数分類、小さい値(V)は、大きな値のIVです。
ここに画像を挿入説明
C4.5、すなわち、情報利得比、セグメンテーションフィールドを選択することにより、分割された分岐度の指標として使用する前に情報ゲインです。自然は(純度はすぐにアップグレードされているが、これらの機能は罰金を強化するために、特別なカテゴリに頼っていません)最大の情報ゲイン、および列の小さな枝です、カラムの分類のより多くのレベルであるIV、より大きな、より大きな割合の罰利得比を達成します。もちろん、我々はまだ大きなGRが優れている願っています。
ここに画像を挿入説明
例:
ここでは、ゲイン比情報を用いて計算されます。
ここに画像を挿入説明
各年齢のために、3つの分岐5,4,5サンプルに分け。P(V)5 / 14,4 / 14/5/14算出
式IV値に。次いで、先にIVの値を割ることによって算出された情報ゲインは、情報利得比を得ます。GR分割の最大値を選択します。
ここに画像を挿入説明
C4.5に、連続データを処理する
ここに画像を挿入説明
C4.5の連続データを処理する場合、まず、第1ソート、次に真ん中の2つの数字セグメントとして隣接点の選択された数(もし年齢のN値)が、されていませんN-1のカテゴリを生成するために、画像に同一のID、前記むしろN-1バイナリ方式、すなわち、N-1の離散変数の複数の変換された後、ゲイン比情報、機能分割を算出します。
ここに画像を挿入説明
ここに画像を挿入説明
したがって、ツリー・モデル・データ・セットに進み、複数のコンピューティングリソースを消費するために、建設中の連続変数を含みます。ツリーは最低純度に従って分割されているためにも、我々は連続変数をビニングアドバイスを提供し、最終的な結果のためのポイントの分類の代わりに大きな影響を持っている、方法ではありません。
36.5の分割、まだ性別より良好な分類結果の対象フィールドの結果によれば、上記のように。

カート

2で割った特徴の各々についてCARTアルゴリズムは、このようCART決定木は、二分木構造モデルです。

回帰CART、平均二乗誤差を用いて特徴選択、分類の問題は、ジニ係数を使用している場合

CART分類ツリーアルゴリズムプロセス

出力離散的な値。プロセスはほとんどC4.5を流れますが、ジニ係数に指標の選択を特色にします。結果は多数決の方法で予測します
ここに画像を挿入説明
連続したデータを処理CART分類ツリーは、C4.5プロセスとモードが同じです。まずソートデータ、隣接する特徴の中間値のその値。分割点は、ジニ指数を算出したカットポイントとして最小を選択しています。
ここに画像を挿入説明
離散データを処理CART分類ツリー異なる組み合わせを得るために、連続した2つの特徴点のカテゴリは、ジニ機能に最小分割ジニ指数を見つけるために、計算されます。
ここに画像を挿入説明

CART回帰ツリーアルゴリズムの流れ

連続出力値。
ここに画像を挿入説明
連続CART回帰木データ処理、ジニ指数が採用されていないが、によって、平均二乗誤差最小化基準および方法は、分割点の選択として特徴付けられます。
年齢など、ノードの分割に応じて、ノードは、左側平均予測値C1、およびC2を取得し、ノードの右の平均予測値を求めます。
、YI CMと平均二乗誤差それぞれ二つの加算結果の次に、平均二乗誤差を左右のノードを取得した後、目標ノードを見つけることで、そのようなノード分割を決定し、最小平均二乗誤差。
得られたノードの後、二つにデータに対応し、左のノードが左ノードは、予測値C2であり、予測値C1である。つまり、ノードの平均値についても同様です。
結果は、平均値や中央値、最終的な葉を用いて予測されます
ここに画像を挿入説明
例えば
分割点を見つけるために、すべての最初の、および平均二乗誤差およびm(S)を算出します。とき、X =(6.5スプリットポイント)ことが見出され、6.5の最小値m(S)。即ち、この分割点は、約あり、以下6.5以上、予測は、同じ理由の右側、6.24(左の平均値)です。
残留サブディビジョンダウンを計算します。
ここに画像を挿入説明
分割された二乗誤差の計算された第1残差和後。
上記のステップが、データが残留しているこの時間。、3.5の分割点を見つける上記セグメント分割点3.5の添加ので。
したがって、常に分割、特定の分割まで、データの残差平方和が要件を満たすように、すなわち、分割を停止します。
ここに画像を挿入説明
ここに画像を挿入説明
質問:データ品質要件が高いとツリーの下に、ここで記述されているのはなぜでは、外れ値を欠損値は、そのような正規化として、線形モデル好きではありません。
まず、決定木は、空間の分割です。xが1,10,100,1000ある場合......これは、ギャップが比較的大きい、しかし、彼らはスプリットポイント、実際の計算を使用しない場合、使用される値は、ラベルの背後にありますこのように、過度のデータ前処理なしで意思決定ツリー。
第二の問題:ここに再びその意思決定ツリーにデータ。そこの説明上記離散または連続したデータがありますが、両方の個別のデータならば、連続がある場合、どのように対処しますか?それは木が離散値や物の連続的な値を識別することができます決定ですか!
再び、にかかわらず、離散的または連続的に、それらだけスプリットポイントへのデータの、わずかな離散データ分割、データが連続する点を分割します
質問3:マルチ木C4.5に比べCARTツリー、バイナリツリー内の利点は?
例えば、N個の連続するデータサンプルのために、マルチツリーC4.5ので、N-1の離散機能、計算量の増加を生成します。CARTは、2つの個別の特徴、そのターゲットと他の機能を生成します。すると以下の計算は、この他の分類。これは、CARTのコア原則である、実質的に計算量を削減しました。

ここに画像を挿入説明

ツリーの剪定

決定木アルゴリズムの特性に起因は、(総リーフノードが最低純度ではない)、従って、決定木は、オーバーフィッティングすることは容易です。剪定は、メソッドを使用して制御することができるフィッティングの問題を抱えていました。
ツリーは、最初の剪定後に分割剪定や剪定します。

まず剪定

各パラメータのしきい値を剪定​​する前に設定し、この値に達すると、木の成長を停止します。

ツリーの深さの1.コントロール。
2.ノードにおけるサンプル数
一定値未満3.計算ゲイン比情報、ジニ指数の大きさは、ストップ生産です。
ここに画像を挿入説明

剪定後

氏は、決定木の中に、決定木はその後、剪定後のクロスバリデーションで最高の汎化ツリーを選択する機能を可能なすべてを生成しています。CARTツリーの剪定方法は、2つのステップに分かれています。
ここに画像を挿入説明

スリーツリーモデルの比較

ここに画像を挿入説明

決定木の長所と短所

1.決定木を描く人を表示直感的にすることができます。
7.決定木は、同様のビンを処理します。
ここに画像を挿入説明
1.決定木考え、合計が最小純度ではないので、決定木アルゴリズムは、オーバーフィッティングすることは容易です。そのため、決定木パラメータの調整はあまりフィットに向かっています。
決定木の性質に5により、試料は大部分配向する傾向を特徴とする(例えば、分類ツリーの最終的な結果を、複数の出力カテゴリとして選択される)、エフェクトの不均衡データが非常に良好ではありません。
ここに画像を挿入説明

リファレンス

https://blog.csdn.net/weixin_46032351/article/details/104543864?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task
https://weizhixiaoyi.com/archives/141.html
https://www.bilibili.com/video/BV1vJ41187hk?from=search&seid=13147394097118063633

公開された26元の記事 ウォン称賛29 ビュー10000 +

おすすめ

転載: blog.csdn.net/AvenueCyy/article/details/105107305