数学的モデリング: 13 のクラスタリング モデル

目次

K-means クラスタリング アルゴリズム

ステップ

K 平均法++

ステップ

SPSS

体系的(階層的)クラスタリング 

ステップ

サンプル間の一般的な距離

インジケータ間の距離

クラス間の距離

SPSS

クラスター化家系図(樹状図)

K 値の決定方法 - エルボー ルール

集約係数:トータル歪み度

Kを決めたらSPSSでグラフを描く

DBSCAN アルゴリズム密度ベースのクラスタリング手法


K 平均法クラスタリング アルゴリズム

ステップ

  1. 分類カテゴリの数であるクラスターの数 K を指定します。
  2. K 個の初期クラスタリング センターを指定する
  3. 残りの点とクラスターの中心の間の距離を計算し、サンプル ポイントをそれらに最も近いクラスターに再分類します。
  4. 各クラスターの中心を新しいクラスターの中心として再計算します。
  5. 中心が収束するか、指定された反復回数に達するまで、2 つのステップをループします。

アドバンテージ:
(1) アルゴリズムがシンプルで高速です。
(2) このアルゴリズムは、大規模なデータセットを処理する場合に比較的効率的です。
欠点:
(1) ユーザは、生成するクラスタの数K を事前に指定する必要があります
( 2 ) 初期値の影響を受けます。
( 3 ) 孤立点データに敏感です。
K-means++ は最後の 2 つの欠点を解決できます。
K-mean++ では、 クラスターの中心ができるだけ遠くにあることを保証する必要があるため、他の点から遠く離れた孤立点がクラスターの中心になる可能性が高く、孤立点を別のカテゴリに含めることができます。
同時に、 K-means++ は クラスターの中心が可能な限り遠くにあることを保証し、初期値の選択が恣意的でないことを保証します。

K 平均法++

基本原理: 初期クラスタリング中心のランダム選択は最適化されており、初期クラスタリング中心はできるだけ遠くにある必要があります。

ステップ

  1. サンプルポイントを最初のクラスター中心としてランダムに選択します
  2. 残りのサンプル ポイントと既存のクラスター中心間の距離を計算します (クラスター中心が複数ある場合は、最初にこれらのクラスター中心の中心を計算し、次に残りのサンプル ポイントと中心間の距離を計算します)。距離が大きいほど、距離が大きいほど次のクラスター中心として選択される確率が高く(確率を割り当て)、ルーレット法を使用して次のクラスター中心を抽出します
  3. K 個の初期クラスタリング センターが選択されるまで繰り返します
  4. K 平均法の手順を続行します

SPSS

問題点:

  1. ただし、上記の 2 つの方法はいずれも、K を手動で指定する問題を解決できません。K をさらに数回試して、どちらの結果が説明しやすいかを確認するしかありません。
  2. 次元効果、データの標準化

体系的(階層的)クラスタリング 

ステップ

  1. 最初に、各サンプルはクラスとして扱われ、サンプル点間の距離が計算されます。
  2. 距離が最も小さい 2 つが新しいクラスにマージされます。
  3. 新しいクラスとすべてのクラスの間の距離を再計算し、クラス間の距離を計算します。
  4. クラスが 1 つだけになるまで繰り返します

60人の生徒の6科目の得点が判明

クラスターサンプル: 生徒の分類など

クラスタリング指標: たとえば、この 6 つのコースを分類する

サンプル間の一般的な距離

インジケータ間の距離

クラス間の距離

主にグループ間およびグループ内で使用されます

最短距離法:( ニアレストネイバー)

最長距離法:( 最遠近傍法)

グループ間連携方法:( グループ間連携)

グループ内連携

重心法:( 重心クラスタリング)

SPSS

クラスター化家系図(樹状図)

K 値の決定方法 - エルボー ルール

集約係数:トータル歪み度

カテゴリ数 K が大きくなるほど、集計係数 J は小さくなります

SPSS が以前の反復のテーブルを生成した後、J に対応する係数列と K に対応するステージが存在します。その後、Excel を使用してグラフを描いて説明します。

Kを決めたらSPSSでグラフを描く

インジケーターが 2/3 の場合のみ、このようにグラフを描くことができます

Kを決定したら、再度システムクラスタリングを使用し、「保存」にクラスタ数をKとして入力します。 

DBSCAN アルゴリズム- 密度ベースのクラスタリング手法

最初の 2 つのアルゴリズムは距離ベース、DBSCAN : ノイズを含む密度ベースのクラスタリング手法です。

DBSCAN アルゴリズムは、データ ポイントを 3 つのカテゴリに分類します。
  • コア ポイント:半径Eps内のポイントMinPts以上の数が含まれます
  • 境界点:半径Eps内の点の数はMinPts未満ですが、中心点の近傍内にあります
  • ノイズ点: コア点でも境界点でもない点 (ある点を中心に円を描きます。含まれる点が <minPts で、その点がどのコア点の範囲内にもない場合、それはノイズです) )

アドバンテージ:
1. 密度定義に基づいて、あらゆる形状とサイズのクラスターを処理できます。
2. クラスタリング中に外れ値を発見できる
3. K-means と比較して、分割するクラスターの数を入力する必要がありません
欠点:
1.入力パラメータ ε radius と Minpts の影響を受けやすいため、パラメータを決定するのは困難です。
2. 変数 ε と Minpts は DBSCAN アルゴリズムではグローバルに一意であるため、クラスターの密度が不均一な場合、
クラス距離が大きく異なる場合、クラスタリングの品質は低くなります。
3. データ量が多い場合、濃度単位を計算する計算量は高くなります。
指標は 2 つだけで、散布図を作成したところ、データは非常に「 DBSCAN 」 のように動作することがわかりました 。このとき、DBSCAN は クラスタリングに使用されます。

おすすめ

転載: blog.csdn.net/m0_54625820/article/details/128704673