機械学習 - +コードの実装決定木アルゴリズム(R言語に基づきます)

分類ツリー(木)は非常に一般的に使用される分類方法です。コアタスクは、可能なカテゴリに対応するデータを分類することです。

彼は、規制の研究である、いわゆる規制の学習がサンプルの束を与えられ、各サンプルは、一連の属性およびカテゴリがあり、これらのカテゴリを分類子を取得するために学習することにより、事前に決定され、分類器は、新興することができ、オブジェクトは、正しい分類を与えます。

 

ディシジョン・ツリー・理解

エントロピーの概念は、決定木を理解することが重要です

ディシジョンツリーの判断ではない100%が正しい作るために、それだけで不確実性に基づいて最善の判断をしています。

エントロピーは不確実性を記述するために使用されます。

 ケース:自転車利用者の推薦シェアを探します

分析:共有自転車で推奨される可能性が高い人々のどのような計算。言い換えれば、それは推薦者とその他の変数の関係の間では珍しいです。

 

ステップ1

ノードの人口に対応するエントロピー対策

このような結果を推奨するかどうかのために二つの点、0又は1に近いの推奨割合は、エントロピーは50%、エントロピーアプローチに近い推奨比率、0です。

アナリストのユーザーは、機能は、推薦を区別する必要があります。これは、可能な限り決定木で(決定木常に分岐点を介して)ノードの人口のエントロピーを減らすことができます。

 

ステップ2

ノード分岐

発散し仕方が異なるゲイン値になり、コンピュータが最善の方法フォークで最大ゲイン値を、選択します。

詳細については、ゲイン関連コンテンツの後にテキスト・メッセージを参照してください。

 

ステップ3

特定のケースで分岐を停止します。

あまりにも多くのブランチノードが状況を複雑にしますが、意思決定、適切な時期に分岐を停止する必要を助長されていません。注意してください。

 

 

インフォメーション・ゲイン(IG)の概念

彼は、決定木、サイズが全体の分類データのエントロピーの減少を通して表現しました。

IGは、エントロピー親ノード上記で得られた重み付けを減算する、得られたエントロピー子ノードは、エントロピー値の減少後の分岐です。

発散し仕方が異なるゲイン値になり、コンピュータが最善の方法フォークで最大ゲイン値を、選択します。

 

R言語


> bike.data < - read.csv(共用自転車サンプルデータ - ML.csv)

>ライブラリー(RPART)

>ライブラリー(rpart.plot)

> library(rpart.plot)
> bike.data$推荐者 <- bike.data$分数>=9
> rtree_fit <- rpart(推荐者 ~城区+年龄+组别,data=bike.data)
> rpart.plot(rtree_fit)

 

 

おすすめ

転載: www.cnblogs.com/Grayling/p/10987517.html