データマイニング(B) - 古典アルゴリズム

データマイニングアルゴリズムのクラシック

様々なアルゴリズムの基本を説明するために、我々はコードを派生したすべての個々のアルゴリズムのその後の詳細な説明を起動します。

C4k5

C4.5決定木アルゴリズムは、分類アルゴリズム機械学習アルゴリズムであり、コアアルゴリズムは、ID3アルゴリズムです。C4.5アルゴリズムは、以下の領域で改善するためにID3及びID3アルゴリズムの利点を継承します。

1.属性情報利得比は、利得不足を選択するための複数の属性情報の選択された属性値のバイアスを克服するために選択され;
2プルーン木構築工程と、
離散連続属性の完全な処理3.でき;
4.不完全なデータを処理することができます。

C4.5アルゴリズムは次のような利点があります生成の分類は、高い正解率を理解しやすいルール。
欠点は、ということである:木の構築中に、それを順次走査し、非効率的なアルゴリズムで、その結果、複数回の選別データを設定する必要がある(反対CARTアルゴリズムは、2つのデータセット、スキャン以下の利点及び決定木の欠点をのみ)。
長所:出力が理解しやすい計算の複雑性は高くないが、中間値の削除は無関係な機能を処理小文字を区別しないデータです。
短所:オーバーマッチング問題を引き起こす可能性があります。
該当するデータ型:数値と名目タイプ。

K-手段アルゴリズム

k平均アルゴリズムは、クラスタリングアルゴリズムである、オブジェクトはに分割され、N kは、その属性に応じて、K <Nを分割します。彼らは、データセンター内の自然なクラスタを見つけようとしているので、混合正規分布を処理するためにEMアルゴリズムと非常によく似ています。これは、空間ベクトルからオブジェクトのプロパティと仮定し、目標はであることを、各グループの内部最小平均二乗誤差の和。

利点:実装が容易。
短所:大規模なデータセット上のローカル最小値、遅い収束に収束します。
該当するデータ型:数値データ。

おすすめ

転載: www.cnblogs.com/cpg123/p/11999841.html