ツリーのコンセプト

まず、決定木

ディシジョンツリー(決定木)は、基本的な分類と回帰する方法です。

決定木は、側へと組成物(有向辺)との接合部(ノード)によって形成されます。

内部ノード(内部ノード)と葉ノード(​​リーフノード):ノードの2種類があります。

内部ノードは、機能またはプロパティを表し、リーフノードは、クラスを表します。

1、決定木の構築:

特徴選択、ツリーの決定木の生成と刈り込み。

選択基準は、一般的にゲイン情報(情報ゲイン)、又はゲイン比情報を特徴としています。

情報利得は:ゲイン情報を分割するデータセットの前と後の情報の変更。

2、シャノンエントロピー

シャノンエントロピー、またはエントロピーと呼ばれる情報のメトリクスコレクション。

エントロピーは、情報の期待値として定義されます。情報理論と確率統計では、エントロピーは確率変数の不確実性の尺度です。

取引情報は、複数の分類で定義することができる分類する場合であり、シンボルXI間で分割されています

ここで、p(XI)は、分類を選択する確率です。上記の式では、我々はすべての種類の情報を得ることができます。

エントロピーを計算するために、我々はすべてのカテゴリの期待値を計算するために必要なすべての情報(数学的期待値)は、次式によって得られた値を含んでいてもよいです。

 Nは、中間区分の数です。エントロピーが大きいほど、確率変数の不確実性が大きいです。エントロピーは、確率推定データとエントロピーと呼ばれ、対応する経験的なエントロピーによって得られた場合。
3計算、経験のエントロピーと最高の機能を選択します

元のデータセット、そして最高のデータセットに基づいて属性値を分割、特徴量が二つ以上の可能性があるので、その2つのブランチに設定されているデータよりも大きいがあるかもしれません:それは、次のように動作します。第1分割後、データセットは、次のブランチノードのツリーを渡されます。この接合部では、我々は再びデータを分割することができます。だから我々は、再帰的な処理データ・セットの原理を使用することができます。

 

おすすめ

転載: www.cnblogs.com/fd-682012/p/11593040.html
おすすめ