ディレクトリ
新しいサイトを更新するために、「機械学習」、より多くのpython、行く、データ構造とアルゴリズム、爬虫類、あなたを待って人工知能教育のより完全な:https://www.cnblogs.com/nickchen121/
C4.5決定木アルゴリズム
決定木ID3アルゴリズムの問題を解決するために、ID3クインランの作者は改善ID3決定木アルゴリズムの欠如に基づきます。しかし、いくつかは疑問があり、ID3アルゴリズムと呼ばれる決定木アルゴリズムいるので、なぜ改善されていないバージョンがID4またはID5それを呼ばれますか?ツリーがあまりにも暑かったので、第二技術革新は、最大使用されているID4、ID5にした、C4アルゴリズムは再び後でアップグレードC4、として知られているID3アルゴリズムの別の方法の改良版の結果は、今C4.5アルゴリズムを持っています。
まず、決定木アルゴリズムC4.5の学習目標
- C4.5アルゴリズム離散連続固有値を使用して
- 情報利得比
- 加重固有値を使用してC4.5アルゴリズム
- C4.5決定木アルゴリズムステップ
- C4.5決定木アルゴリズムの長所と短所
第二に、決定木アルゴリズムC4.5は、詳細な
決定木ID3アルゴリズムに言えば、4つの欠点があり、この作者は今もC4.5アルゴリズムである。この4つの欠点改善のアルゴリズムに基づいています。
既存のトレーニングセットとし\(D \) 、機能セット\(\)を、トレーニングセットを持っている\(m個\)サンプルを、各サンプルが持っている\(N- \)私たちはトレーニングセットの話を持っていることで機能を、 C4.5アルゴリズムの改善に行われていたものの話。
2.1の前記連続した離散値
ID3の第1の欠点:口座に連続値の場合を取りません。
既存の特徴と仮定\(F. \)の降順に、固有値を連続した値を\(F_1、F_2、\ ldots、F_M \) 、隣接するサンプル値との間の前記C4.5アルゴリズム(\ f_i、F_ {I + 1} \) の平均は、利用可能な総服用\(M-1 \)を分割点目、最初の前記\(J \)分割点目のように表すことができる
\ [S_j = {\ FRAC {たf_i + F_ {I + 1}
{2}} \] のための\(M-1 \)点バイナリ分類としてポイントを算出する分割点番目の情報利得比、選択最高点よりも情報ゲインとして特徴点の離散連続分類、変化点と称する\(F_T \) 、特徴値がより小さい\(F_T \)と呼ばれる点\(C_1および\) ;より大きい特性値\(F_T \)ポイント呼ばれる\(C_2 \)こうして連続離散固有値を達成。
2.2情報利得比
ID3の第二の欠点:機能セットは、トレーニングデータに分割されているような情報を得るために、問題のより多くの特性の現在値を選択する傾向があります。
標準として情報利得値は、より容易に特徴付けられる傾向があり、したがって分割ノードより標準情報ゲインとして用いてもよいです。コンセプト情報利得比はちょうど式を与えるために、紙"エントロピ情報利得"に導入されている
\ [g_R(D、A) = {\ FRAC {G(D、A)} {H_A(D)}} \]
対応する特徴エントロピーの特徴のよりため(\ H_A(D))\情報ゲインよりも大きい\(g_R(D、A) \) より小さい利得補正情報を容易に付勢することが可能となるであろう問題の値は、より多くを提供しています。
2.3剪定
ID3の第3の欠点:フィッティング問題とは見なされません。
一般的に過剰適合を解決するための方法を使用樹木剪定、具体的なアイデアの剪定ます「CARTツリー」の記事で詳細に行くために。
特徴量の重み2.4
ID3の第四欠点:なし欠損値の機能を含まない場合を考えます。
特徴とし\(F. \)は 2つの固有値持っています\(F_1、F_2 \) 、以前に設定削除\(F. \)サンプル特徴\(D_I \)の特性上、\(F. \)固有値を重みは、1であり、すなわち\(F_1 \)と\(F_2 \) 。仮定\(2 \)の固有値に対応するサンプル数は全く欠損値ではない\(3 \)と\(5 \) 、前記現在値\(F_1、F_2 \)サンプル組替え\(D_Iを\ )、サンプル\(D_I \)で\(F_1 \)重量をするように調整した({\ FRAC {3} {8}}を\ \)、\ (F_2 \)重量をするように調整した({\ FRACを{\します8} {5}} \)、即ち、サンプル\(D_I \)を備えてい\(F. \)固有値を\({\ FRAC {3} {8}} * F_1 と{\ FRAC {8 {5} * F_2}} \) 。
サンプル計算(D_I \)\を特徴\(F. \)場合、情報利得比、及び計算\({\ FRAC {3} {8}} * F_1 \) と\({\ FRAC {5} {8 }} * F_2 \)情報利得比。
第三に、C4.5決定木アルゴリズムの流れ
3.1入力
既存のトレーニングセットと仮定する\を(D \) 、特徴セット\(\) 、閾値(\ \イプシロン\) 。
3.2出力
C4.5決定木アルゴリズム。
3.3プロセス
- 初期情報ゲイン閾値の\(\イプシロン\)
- 場合\(D \)全てのサンプルでは、同じカテゴリに属する\(C_k \) 、シングルノードツリーが返される\(T \) 、標識されたカテゴリ\(C_k \)
- 場合\(\)は空集合、単一ツリーノード戻る\(T \) 、標識されたカテゴリ\(D \)クラス内のサンプルの最大数で\(C_k \)
- 計算\(\)の出力のそれぞれの特性の\(D \)情報利得比、選択よりも情報ゲイン最大\(A_G \)
- 場合\(A_G \)が閾値未満である\(\ \イプシロン)、単一のノードが返さ\(T \) 、標識されたカテゴリ\(D \)をクラス内のサンプルの最大数で\(C_k \)
- 場合\(A_G \)が閾値よりも大きい\(\イプシロン\)次に、特性に応じて、\(A_G \)の異なる値\(A_ {g_i} \)する(D \)を\いくつかのサブセットに分割されている\ D_I(\ )、各サブセットは、子ノード、特性値に対応する子ノードを生成する\(A_ G_i} {\) 、再帰呼び出し\(2-6 \) 、ステップサブツリー与える\(T_I \)と戻ります
C4.5決定木アルゴリズムの第四に、長所と短所
4.1利点
- 理論は簡単で、明確です
- 学習能力
4.2の欠点
- これは、分類のためだけに使用することができます
- C4.5アルゴリズムは決定木を生成するエントロピーの概念を使用するためのエントロピー計算を大量に必要とし、特徴が連続値の場合、さらなる動作をソートするために必要とされます
- モデルより複雑なマルチツリー構造を使用して
V.の概要
決定木アルゴリズムC4.5決定木ID3アルゴリズムのプロセスとは非常に異なるが、決定木ID3アルゴリズムのプロセスのステップは、すべてのすべてで、最適化されていますが、それは一時的な解決策、このアプローチで、まだ問題に対処するために戻ることはできません。
次に、我々は決定木の意義を改革したいと思うでしょう、現在scikit学習アルゴリズム統合学習をし、ターゲット木、その木CARTアルゴリズムとして木を使用しています。