分類ツリー(木)は非常に一般的に使用される分類方法です。コアタスクは、可能なカテゴリに対応するデータを分類することです。
彼は、規制の研究である、いわゆる規制の学習がサンプルの束を与えられ、各サンプルは、一連の属性およびカテゴリがあり、これらのカテゴリを分類子を取得するために学習することにより、事前に決定され、分類器は、新興することができ、オブジェクトは、正しい分類を与えます。
ディシジョン・ツリー・理解
エントロピーの概念は、決定木を理解することが重要です
ディシジョンツリーの判断ではない100%が正しい作るために、それだけで不確実性に基づいて最善の判断をしています。
エントロピーは不確実性を記述するために使用されます。
ケース:自転車利用者の推薦シェアを探します
分析:共有自転車で推奨される可能性が高い人々のどのような計算。言い換えれば、それは推薦者とその他の変数の関係の間では珍しいです。
ステップ1
ノードの人口に対応するエントロピー対策
このような結果を推奨するかどうかのために二つの点、0又は1に近いの推奨割合は、エントロピーは50%、エントロピーアプローチに近い推奨比率、0です。
アナリストのユーザーは、機能は、推薦を区別する必要があります。これは、可能な限り決定木で(決定木常に分岐点を介して)ノードの人口のエントロピーを減らすことができます。
ステップ2
ノード分岐
発散し仕方が異なるゲイン値になり、コンピュータが最善の方法フォークで最大ゲイン値を、選択します。
詳細については、ゲイン関連コンテンツの後にテキスト・メッセージを参照してください。
ステップ3
特定のケースで分岐を停止します。
あまりにも多くのブランチノードが状況を複雑にしますが、意思決定、適切な時期に分岐を停止する必要を助長されていません。注意してください。
インフォメーション・ゲイン(IG)の概念
彼は、決定木、サイズが全体の分類データのエントロピーの減少を通して表現しました。
IGは、エントロピー親ノード上記で得られた重み付けを減算する、得られたエントロピー子ノードは、エントロピー値の減少後の分岐です。
発散し仕方が異なるゲイン値になり、コンピュータが最善の方法フォークで最大ゲイン値を、選択します。
R言語
> bike.data < - read.csv(共用自転車サンプルデータ - ML.csv)
>ライブラリー(RPART)
>ライブラリー(rpart.plot)
> library(rpart.plot)
> bike.data$推荐者 <- bike.data$分数>=9
> rtree_fit <- rpart(推荐者 ~城区+年龄+组别,data=bike.data)
> rpart.plot(rtree_fit)