実験7、クラスタリングアルゴリズムデータマイニングK-手段
実験の最初に、目的
1.クラスタリングアルゴリズムK-手段の基本原則を理解します
2. pythonでK-手段アルゴリズムを達成するための学習
第二に、実験ツール
1.アナコンダ
2. sklearn
3. matplotlibの
第三に、実験的な導入
約1アルゴリズムKは、意味します
K平均アルゴリズムは、クラスタリングアルゴリズム、いわゆるクラスタリング、即ち、類似の原理、より高い非類似のデータオブジェクトを異なるクラスに分類さを有する、クラスタへのデータオブジェクトの同じクラスに類似の高い程度を有することになるでクラスター。クラスタリングおよび分類の最大の違いは、つまり、オブジェクトデータは、任意の事前知識なしに処理することが、教師なしクラスタリング処理プロセスである、ということである、と分類プロセスは、トレーニングデータセットの事前の知識があると、監視対象のプロセスです。
2 K-手段アルゴリズム論
Kは、アルゴリズム及びK-アルゴリズムを意味し、kは、手段としてのアルゴリズム、(説明によってクラスタの平均値である)クラス平均クラスタデータオブジェクトの手段担当者K平均、従って、それが参照することによってクラスタの数を表します。 。クラスタリングアルゴリズムは、より可能性が高い同じ標準類似度データオブジェクト間の距離と分割に基づくアルゴリズム、すなわちデータオブジェクト間の距離が小さいほど、それらの類似性を高く、それらはあるkは、意味しますクラスクラスタ。中間データオブジェクトは、距離計算の多様を有し、k平均アルゴリズムは、通常、距離データオブジェクト間のユークリッド距離を計算するために使用されます
第四に、実験の内容
1.乱数生成100、および100の番号これに対するk平均クラスタリング(k = 3,4,5,6)(及びmatplotで描きます)
1)トレーニングセットとして100二次元データのランダムサンプルを作成します
2)ここで、k = 3クラスタ
3)は、k = 4のクラスタ
4)K = 5クラスタリング
5)ここで、k = 6クラスタ、および観察されたクラスタ分布
K平均アルゴリズムをクラスタリング(及びmatplotによる描画)の2虹彩データ。
5回の実験要約(書き込み収穫の問題が発生したこの実験、など)
この実験的な学習と動作により、私は、関数kmeansアルゴリズムの基本的な原則だけでなく、使いやすいsklearnクラスタの構築方法を習得しました。そしてmatplot描画、異なるクラスタK = 3,4,5時間分布に見られる視覚画像を使用して。