目次
K 平均法クラスタリング アルゴリズム
ステップ
- 分類カテゴリの数であるクラスターの数 K を指定します。
- K 個の初期クラスタリング センターを指定する
- 残りの点とクラスターの中心の間の距離を計算し、サンプル ポイントをそれらに最も近いクラスターに再分類します。
- 各クラスターの中心を新しいクラスターの中心として再計算します。
- 中心が収束するか、指定された反復回数に達するまで、2 つのステップをループします。
アドバンテージ:
(1) アルゴリズムがシンプルで高速です。
(2) このアルゴリズムは、大規模なデータセットを処理する場合に比較的効率的です。
欠点:
(1) ユーザは、生成するクラスタの数K
を事前に指定する必要があります
。
(
2
) 初期値の影響を受けます。
(
3
) 孤立点データに敏感です。
K-means++ は最後の 2 つの欠点を解決できます。K-mean++ では、 クラスターの中心ができるだけ遠くにあることを保証する必要があるため、他の点から遠く離れた孤立点がクラスターの中心になる可能性が高く、孤立点を別のカテゴリに含めることができます。同時に、 K-means++ は クラスターの中心が可能な限り遠くにあることを保証し、初期値の選択が恣意的でないことを保証します。
K 平均法++
基本原理: 初期クラスタリング中心のランダム選択は最適化されており、初期クラスタリング中心はできるだけ遠くにある必要があります。
ステップ
- サンプルポイントを最初のクラスター中心としてランダムに選択します
- 残りのサンプル ポイントと既存のクラスター中心間の距離を計算します (クラスター中心が複数ある場合は、最初にこれらのクラスター中心の中心を計算し、次に残りのサンプル ポイントと中心間の距離を計算します)。距離が大きいほど、距離が大きいほど次のクラスター中心として選択される確率が高く(確率を割り当て)、ルーレット法を使用して次のクラスター中心を抽出します
- K 個の初期クラスタリング センターが選択されるまで繰り返します
- K 平均法の手順を続行します
SPSS
問題点:
- ただし、上記の 2 つの方法はいずれも、K を手動で指定する問題を解決できません。K をさらに数回試して、どちらの結果が説明しやすいかを確認するしかありません。
- 次元効果、データの標準化
体系的(階層的)クラスタリング
ステップ
- 最初に、各サンプルはクラスとして扱われ、サンプル点間の距離が計算されます。
- 距離が最も小さい 2 つが新しいクラスにマージされます。
- 新しいクラスとすべてのクラスの間の距離を再計算し、クラス間の距離を計算します。
- クラスが 1 つだけになるまで繰り返します
60人の生徒の6科目の得点が判明
クラスターサンプル: 生徒の分類など
クラスタリング指標: たとえば、この 6 つのコースを分類する
サンプル間の一般的な距離
インジケータ間の距離
クラス間の距離
主にグループ間およびグループ内で使用されます
最短距離法:(
ニアレストネイバー)
最長距離法:(
最遠近傍法)
グループ間連携方法:(
グループ間連携)
グループ内連携
重心法:(
重心クラスタリング)
SPSS
クラスター化家系図(樹状図)
K 値の決定方法 - エルボー ルール
集約係数:トータル歪み度
カテゴリ数 K が大きくなるほど、集計係数 J は小さくなります
SPSS が以前の反復のテーブルを生成した後、J に対応する係数列と K に対応するステージが存在します。その後、Excel を使用してグラフを描いて説明します。
Kを決めたらSPSSでグラフを描く
インジケーターが 2/3 の場合のみ、このようにグラフを描くことができます
Kを決定したら、再度システムクラスタリングを使用し、「保存」にクラスタ数をKとして入力します。
DBSCAN アルゴリズム- 密度ベースのクラスタリング手法
最初の 2 つのアルゴリズムは距離ベース、DBSCAN : ノイズを含む密度ベースのクラスタリング手法です。
DBSCAN
アルゴリズムは、データ ポイントを 3 つのカテゴリに分類します。
- コア ポイント:半径Eps内のポイントMinPts以上の数が含まれます
- 境界点:半径Eps内の点の数はMinPts未満ですが、中心点の近傍内にあります
- ノイズ点: コア点でも境界点でもない点 (ある点を中心に円を描きます。含まれる点が <minPts で、その点がどのコア点の範囲内にもない場合、それはノイズです) )
アドバンテージ:
1. 密度定義に基づいて、あらゆる形状とサイズのクラスターを処理できます。
2. クラスタリング中に外れ値を発見できる。
3. K-means と比較して、分割するクラスターの数を入力する必要がありません。
欠点:
1.入力パラメータ ε radius と Minpts の影響を受けやすいため、パラメータを決定するのは困難です。
2. 変数 ε と Minpts は DBSCAN アルゴリズムではグローバルに一意であるため、クラスターの密度が不均一な場合、
クラス距離が大きく異なる場合、クラスタリングの品質は低くなります。
3. データ量が多い場合、濃度単位を計算する計算量は高くなります。
指標は 2 つだけで、散布図を作成したところ、データは非常に「 DBSCAN 」
のように動作することがわかりました
。このとき、DBSCAN は
クラスタリングに使用されます。