[マシンノートを学習](d)のディシジョン・ツリーディシジョンツリー

(D)決定木決定木


基本コンセプト

デシジョンツリー(決定木)は、期待値の正味現在価値に当たるように様々な状況が発生する既知の確率に基づいており、その実現可能性を決定するための決定木がゼロに等しい構成することにより、確率、プロジェクトのリスク評価、決定分析法よりも大きくされています確率論的分析を直感的に使用するためのグラフィック方法。このため、決定枝のように決定木と呼ばれる木の枝のようなグラフィックスを描きました。

機械学習は、決定木は、予測モデルである。彼は、オブジェクトとオブジェクト属性値との間のマッピング関係を表しています。各ツリーノードはオブジェクトを表し、それぞれの可能な経路の属性値は分岐を表し、各リーフノードは、によって経験示す経路ノードのリーフにルートノードからオブジェクトに対応します値。

唯一の単一の決定木の出力、Ruoyu複雑な出力を持っている、あなたは別の出力を処理するために、別々の決定木を作成することができます。ディシジョン・ツリーデータマイニングは、しばしば使用される技術であるデータを分析するために使用することができ、また、予測を行うために使用されます。要するに、決定木(決定木)は、基本的な分類と回帰法です。

分類では、プロセス・インスタンスの特徴に基づいて分類を表します。IF-THEN規則のセットは、空間の分布を有する特徴空間で定義された条件付き確率とみなすことができるように、それは考えることができます。メインモデルは、やや読みやすい、速い分類速度です。、学習に基づいたトレーニングデータ、使用して最小限に抑えるために損失関数を決定木モデルの原則を構築します。新しいデータの場合には予測、本モデルの使用を分類することを決定。


データは、決定木学習と呼ばれる決定木機械学習技術から生成されました。:決定木学習は、典型的には3つのステップを含む特徴選択、決定木の生成剪定を


意思決定ツリー分類アルゴリズム

ディシジョン・ツリー・アルゴリズム アルゴリズムの説明
ID3アルゴリズム コアは、決定木のノードのレベルであり、選択基準として情報利得特性を用いる方法は、各ノードで使用する適切なプロパティを生成するのに役立つと判断されます
C4.5アルゴリズム

C4.5決定木アルゴリズムは決定木分類アルゴリズム機械学習アルゴリズムであり、コアアルゴリズムは、ID3アルゴリズムです。C4.5アルゴリズムは、以下の領域で改善するためにID3及びID3アルゴリズムの利点を継承します。

情報利得比を有する(1)の選択が不十分である場合、属性情報ゲインを有する多くの属性の偏りを克服するために値を選択し、プロパティを選択します。 

(2)ツリー構築プロセスを剪定。  

(3)離散連続属性の処理を終了します。  

データを処理することができる(4)が不完全です。

C4.5アルゴリズムは次のような利点があります生成の分類は、高い正解率を理解しやすいルール。ツリーの構築中に、それを順次走査し、非効率的なアルゴリズムで、その結果、複数回の選別データを設定する必要がある。欠点は、ということです。

CARTアルゴリズム

CART(分類および回帰ツリー)決定木の実装でその分類と回帰ツリーアルゴリズム、。

CARTバイナリ再帰アルゴリズムはセグメント化技術である、現在のサンプルは、CART決定木アルゴリズムは、二分木構造が簡単で発生ように、各非リーフノードは、生成された二つの枝を有するように、二つのサブサンプルに分割されています。CARTアルゴリズムは、バイナリツリーで構成されているとおり、意思決定の各段階でのみ「はい」または「いいえ」、特徴である複数の値がある場合でもこれ、データは2つの部分に分かれています。CARTアルゴリズムでは2つのステップに分かれています。

(1)決定木:できるだけ大きく発生再帰分割プロセスの寄与のサンプル、決定木。

(2)決定木枝刈りは:プルーニング基準の最小の損失で、時間の関数として、検証データとプルーニング。


 

決定木の長所と短所

長所:出力が理解しやすい計算の複雑性は高くないが、中間値の削除は無関係な機能を処理小文字を区別しないデータです。

短所:オーバーマッチング問題を引き起こす可能性があります。

該当するデータ型:数値と名目タイプ

決定木を構築するとき、我々は対処する必要がある最初の質問は、データ分類の区分に決定的な役割を果たしています現在のデータセットです。決定的な特徴を見つけるために、最善の結果を切り開いた、私たちは、それぞれの特徴を評価しなければなりません。試験を完了した後、元のデータセットは、データのいくつかのサブセットに分割しました。これらのデータのサブアセンブリは、すべてのブランチ上の最初の決定ポイントで配布しました。同じタイプ、データセットのさらなる分割のブランチのデータであれば。データサブセット内のデータは同じタイプに属していない場合には、プロセスデータを繰り返す必要はサブセットに分割しました。同じ手順データサブセットを分割し、すべてのデータがサブセット内のデータの同じ種類になるまで、元のデータセットを分割します。

以下は、スイカ2.0を設定し、生成ゲインデータに基づいて決定木です。「機械学習」(ズハウ・ジワ、清華大学プレス、P78)からの引用

 

分類ツリーモデルは、分類ツリーインスタンスの説明です。決定木は、側へと組成物(有向辺)との接合部(ノード)によって形成されます。ノードの2つのタイプがあります内部ノード(内部ノード)と葉ノード(​​リーフノード)ノードは、クラスを表すリーフノードの内部特性または性質を表します。

試験結果によれば、試験の特性例のルート決定木分類から出発し、その子ノードのインスタンスに割り当てられます。この場合、それぞれの子ノードは、特徴の値に相当します。だから、再帰的にテストし、配布する例えば、リーフノードに到達するまで。リーフノードに割り当てられたクラスの最後のインスタンス。


ツリーとのif-thenルール

決定木は、IF-THENルールのセットと考えることができます。ルール決定木は、リーフノードにルートノードから構成され、ルールの条件に対応する内部ノード、およびクラスは、ルールの結論のリーフノードに対応することを特徴とします。
排他的かつ完全な:意思決定ツリーパスまたはIF-THENルールの対応するセットは、重要な特性を持っています。すなわち、例えば一つのパス又はルール、ルールによって覆われ又は経路の調製によって覆われません。


ディシジョンツリー構造

決定木を使用したメイク予測は以下の手順が必要です。

データ収集:あなたは任意の方法を使用することができます。例えば、デートのシステムを構築したい、我々はそこ仲人からデータを取得し、またはブラインド日付を訪問することによってすることができます。その考慮した要因と、最終的な選択結果によると、我々は、データの私達の使用のためのいくつかを得ることができます。
データの準備:データ収集は、これらのすべての収集された情報は、当社のフォローアップ治療を容易にするため、一定のルール及びレイアウトに従って整理、我々は整理する必要があり、終了しました。
データ分析:あなたは、任意の方法を使用することができる決定木の構築が完了した後、私たちは期待にグラフィカルな意思決定ツリーラインかどうかを確認することができます。
アルゴリズムをトレーニング:このプロセスは、決定木を構築され、また、決定木学習言うこと同じ缶が、それは決定木データ構造を構築することです。
テストアルゴリズム:木の計算エラー率との経験。許容範囲の誤差率は、決定木を使用に置くことができるとき。
使用するアルゴリズム:この手順は、決定木は、優れたデータの内部の意味を理解するために使用することができ、任意の教師付き学習アルゴリズムを使用することができます。

 

決定木学習アルゴリズムは、再帰的には、通常、最適な特性を選択し、訓練データは、各プロセスが最良の分類のサブデータセットを有するように、この機能に応じて分割されています。このプロセスは、特徴空間の区分に対応するだけでなく、決定木の構築に対応しています。

1)スタート:ルートノードの構築、すべてのトレーニングデータのルートノードは、トレーニングデータセットの特徴に応じて、最適な機能を選択するためには、各サブセットが現在の条件下で、好ましくを有するように、サブセットに分割されています分類。

これらのサブセットは、実質的に正確に分類することができた場合は2)、次いで、リーフノード、及びに対応するリーフノードに割り当てられたサブセットを構築します。

3)がある場合のサブセットは、最良の新機能のこれらのサブセットの選択は、再帰的にあれば、すべてのトレーニングデータのサブセットが不可欠になるまで、対応するノードを構築し、分割され続け、その後、正しく分類することができません正確な分類、あるいは全く適した機能はありませんまで。

4)各サブセットは、このように決定木を生成し、明確なクラスを持つリーフノードに割り当てられています。

ブック属性ボリュームにリーフノードに相当する;一般に、ルートノードを含む決定木、内部複数のノードとリーフノードの複数の特性試験の結果に含まれるサンプルセットの各リーフノードれますこれは、サブノードに分割され、サンプルコーパスを含むルートノードは、飲料の各リーフノードへのルートからのパスは、テストシーケンス決意を有していました。下図のように木学習は、基本的なプロセスであり、強力な汎化ツリーを生成するために、ある目的の決定は、簡単で、単に「分割統治」(分割統治)の戦略に従ってください。

明らかに、ディシジョン・ツリーは、再帰的なプロセスです。基本的な決定木アルゴリズムでは、再帰的なリターンにつながることができます3つの状況があります。

  1. 現在のサンプルノードは、カテゴリ、分割なしに属するの完全な同意が含まれています。
  2. 属性の現在のセットは、すべてのプロパティのすべてのサンプルまたは同一の値を分割することができないが空です。
  3. 現在のノードに含まれるサンプルセットは、それを分割することができない、空です。

第3のシナリオでは、同一のマークは、現在のノードがリーフである第二のケースでは、我々は、現在のノードがリーフノードであり、そのカテゴリはノードが含まれているサンプルタイプに設定標識ノードは、それはそのカテゴリノードは、その親カテゴリにサンプルアップに含まれる設定されます。なお、いずれの場合においても実質的な差異2つの後方現在のノードの分布、及び3つのサンプルのケースを用いた場合には、現在のノードの分布として親ノード事前分布です。


ディシジョン・ツリーと条件付き確率分布

特徴空間のパーティションに定義された条件付き確率分布ツリー。特徴空間は相互に排他的な細胞または細胞面積の領域に分割され、そしてクラス確率分布は条件付き確率分布を構成する各セルに定義されています。

経路決定木は、分割の単位に相当します。所定の条件配布コンポーネント下各部に条件付き確率のクラスで表される決定木の条件付確率分布。
Xは、確率変数の特性を想定しているXがクラスを表す確率変数であり、その後、条件付き確率分布P(Yは、| X)クラスに与えられた.X分割のセットに結合から取らなく、Yが値。各リーフノードの条件付き確率は、ある確率で一般的に最大のクラスです。


決定木学習

決定木学習はある条件付き確率モデルを推定するために訓練データセットクラスに特徴空間に基づいて、条件付き確率モデルは無限の数です。条件付き確率モデルは、我々は選ぶべきトレーニングデータは、優れたフィットを持っていないだけでなく、未知のデータの優れた予測因子を持っています

学習決定木損失関数は、この目標を表明しました。機能の喪失の決定木学習は通常正則最大尤度関数決定木学習戦略はある目的関数の機能の損失が最小限に抑えられます
損失関数のOKは、この問題を研究することになると、関数の問題の喪失感に最適な決定木を選びます決定木から可能な限り最高の意思決定ツリーを選択しているためであるNP(非多項式)完全問題でそう現実には、決定木学習アルゴリズム一般的に採用さヒューリスティック(発見的)方法、最適化問題を解くおおよそ。そのような得られた決定木は、通常の準最適(次善)です。

決定木学習アルゴリズムは、再帰的には、通常、最適な特性を選択し、訓練データは、各プロセスが最良の分類のサブデータセットを有するように、この機能に応じて分割されています。このプロセスは、特徴空間の区分に対応するだけでなく、決定木の構築に対応しています。

特徴選択アルゴリズムは、決定木学習を備えて木を剪定決定木を生成します。決定木は、条件付き確率分布を表しているので、確率モデルの異なる色合いは複雑さを変化させるこのツリーに対応します。対応して生成ディシジョン・ブック部分的選択モデル、対応する剪定決定木グローバル選択モデルを

目標を学習決定木:デシジョンツリーモデルを構築するために与えられた訓練データセット、正しく分類インスタンスへことが可能となります。

決定木学習の性質:分類規則のセットをまとめたトレーニングセットから、またはトレーニングデータセットによっては、条件付き確率モデルを推定します。

最大尤度関数の正則:損失関数を学習決定木

決定木学習テスト:損失関数を最小化するために


機能の選択

あなたはデメリットのランダムな組み合わせで特徴分類結果を使用している場合、この機能は非常に異なっていない分類能力がないことを主張しました。この機能を投げた経験を学習上の意思決定書籍の精度にほとんど影響を与えません。通常、特徴選択基準は、ゲイン情報または情報利得比です。

特徴選択は、特徴空間を分割し、その機能を使用することを決めています。情報ゲイン(情報ゲイン)は、視覚的な基準の良い表現することができます。


エントロピ

エントロピーはサンプルの純度の尺度であり、現在のサンプルセット嘉定比D k番目のサンプルクラスは、PK(| Y | k = 1,2、...、)を占め、エントロピーはDのように定義されます:

D.の耳鼻咽喉科小さく、高純度の値(D)


情報利得

一般に、より大きな利得情報は、それが財産の使用をより割ることによって得られることを意味し、「純度アップグレード」を どの基準としてID3分割属性情報ゲインを選択することです。 

情報ゲインのデメリット

そのような主キー情報利得上としてクラス属性情報ゲインに大きく、より多くのデータは、非常に大きいですが、明らかに過剰適合につながるので、いくつかの欠陥情報ゲインがあります 


ゲイン率

実際には、情報利得基準は属性の数の値が大きいために好みを持っていることがあり、そのような好みは悪影響を減らすことができます。C4.5決定木アルゴリズムは、直接施設の最適な部門を選択するために、情報利得が、「ゲイン率」の使用を使用していない、ゲインは次のように定義されています。

可能性が高い属性値(すなわち、より大きなV)の数は、IV(A)の値は通常大きいです。分割候補で開始:ゲイン比基準が小さい値属性選好数であること、したがって、候補のプロパティの最大分割の利得を選択するために、直接C4.5アルゴリズムではなく、ヒューリスティックを使用してもよいことに留意すべきですプロパティは、平均以上のプロパティ情報利得を見つけ、そして最高の利得率を選択してください。

 


ジニ係数(GINI)

GINIインデックス:
1、視差の測定値;
2、通常、所得格差を測定するために使用される任意の不均一な分布を測定するために使用することができ、
図3に示すように、0と1の間の数であり、0は正確に等しく、 1-完全に等しい;
4、全体的なカテゴリ内の(非常に類似しているエントロピーの概念を有する)より雑然と、GINIインデックス大きくを含みます。

除算のプロパティを選択するためのCARTの意思決定ツリー。純度Dデータセットはジニ指数を測定するために使用することができます

したがって、ジニ小さい(D)、データセットDの高純度

 


剪定プロセス

決定木は、データセットを訓練するためにあまりにも適応することによるものである、オーバーフィットしやすいですが、テストデータセットにうまく機能しませんでした。このしきい値によって回避の木の枝に、私たちのいずれかの制御終了条件が小さすぎる時、あるいはにより形成されたオーバーフィッティングを避けるために、剪定デシジョンツリーオーバーフィッティングを克服する別の手段は、ブートストラップランダムフォレスト(ランダムフォレスト)を確立するという考えに基づいています

ディシジョン・ツリーの剪定は、「オーバーフィット」を扱うための主要な手段です。決定木学習では、可能な限り正確なように、サンプルを分類するために、ノード分割のプロセスは、時には過度の木の枝で、その結果、繰り返され、すべてのデータの一般的な性質は、したがって、オーバーフィッティングにリードしているのように、時には自分の特性を置きます、積極的にいくつかの枝を取り除くことにより、オーバーフィッティングのリスクを減らすことができます

各ノードは分割前に推定されるようにするための基本的な戦略剪定や剪定前に、剪定は、決定木のプロセスを指し、現在の分割ノードツリーが汎化性能改善をもたらすことができない場合には、現在のノードの分割停止フラグはリーフノードであり、ノードは、単語を置換リーフノードに対応する場合プルーニングは、完全な決定木を生成するために、トレーニングセットを起動し、非リーフノードを検査するボトムアップからのものです決定木は、汎化性能を持って、サブツリーのリーフノードを置き換えることができます。

要するに:

まず剪定 - 工事中、条件を剪定ノードが満たされ、このブランチの即時停止建設。

剪定後 - 決定木の完全な構造を完成するために、その後、一定の条件を剪定してツリーをトラバース。

実際には、基準がアイデアを参照することができ剪定、決定木のサイズを決定する方法で剪定するには、次のとおりです。

プルーニングノードをプルーニング方法の有効性を評価するために、訓練セットと検証(バリデーションセット)を使用して、(1)セット(トレーニングセット)。

(2)トレーニングのための全てのトレーニングセットを使用して、しかし、特定のノードがそのような更なるかどうかのノードを展開するカイ二乗(クインラン、1986)試験を用いとして、トレーニングセット外のパフォーマンスデータの評価を改善するトリムかどうかを推定するために統計的検定を用い全体の分類データの性能を向上させる、あるいは単に現在のトレーニングセットデータのパフォーマンスを向上させることができ、
(3)は、ときに最小符号長、トレーニング例の複雑さ及び決定木を測定するストップツリーの成長を明確な基準を使用する、などMDL(最小記述長)基準。

影響分析

まず剪定枝の多くがオーバーフィッティングのリスクを低減するだけでなく、大幅に決定木のトレーニング時間のコストを削減し、時間をテストしていないだけでその、展開されていないことができます。しかし、いくつかの枝が、現在一般化を向上させていません。とにも一時的な削減の一般化につながる可能性がありますが、剪定に、この貪欲な性質は、木が少なくフィット感にリスクをもたらすように、そのベースで、その後の部門では、大幅な増加につながる可能性があります。

剪定と事前に剪定生成し、それはそう事前に起因することが多い一般化を剪定、少しリスクをunderfittingれ、事前の予約よりもプルーン多くの枝を剪定した後、通常は見ることができた後に比較ツリー木の剪定。しかし、剪定プロセスはより大きなオーバーヘッド剪定前にボトムアップからのカットなので、トレーニング時間です。

参考ボーエン:https://www.jianshu.com/p/61a93017bb02?from=singlemessage


決定木の分類境界

すなわち、それは自由境界と平行な複数のセグメントからなる座標軸を有し、平行な軸:さらに、決定木分類境界は、独特の特徴を形成しています。

 


Graphvizのツール

Graphvizのは、オープンソースであるグラフ可視化ソフトウェアグラフィカルな視覚化された構成情報はとして表される抽象的ビュー及び図ネットワーク方法。これは、他の技術分野における重要なネットワーキングへの応用、バイオインフォマティクス、ソフトウェア工学、データベースやWebデザイン、機械学習、および視覚的インターフェースを持っています。 

Graphvizの:可視化ツールのダウンロード:

https://graphviz.gitlab.io/_pages/Download/Download_windows.html

コマンドラインで入力された変換命令:

-o des.pdf -Tpdf src.dot DOT
src.dot .DOTファイルは、パスと表される 
.pdfファイルが生成される表現、および好ましくはまたパスとdes.pdf

例えば:

ドット-Tpdf G:\機械学習\ tree.dot -o G:\機械学習\ tree.pdf - 成功したPDFファイルにファイルをドット

ドット-Tpng G:\機械学習\ tree.dot -o G:\機械学習\ tree.pngは - 成功したPNGファイルにファイルをドット。


 

 

公開された619元の記事 ウォンの賞賛185 ビュー660 000 +

おすすめ

転載: blog.csdn.net/seagal890/article/details/105153888