データマイニング学習 - クラスター分析 (K-means クラスタリング、DBSCAN、AGNES)、Python コード

K 平均法クラスタリングの基本的な考え方は次のとおりです。サンプルセット D={x1,x2,...,xn} が与えられた場合、クラスターパーティション C={C1,C2,. ...,Cn} を見つけて、次のようにします。すべてのサンプルポイントからサンプルポイントが存在するクラスターの重心までの距離の二乗誤差の合計 (SSE) が最小になります。

基本的な手順:

1.重心を初期化する

2. サンプルのクラスタリング

3. クラスターの重心を計算します。

4. 終了条件の判定

（下図に示すように、k-meansクラスタリング処理です）

(2) K-means クラスタリングの特徴

K-means クラスタリングを実行するときは、次の点に注意してください。

1. k の選択(クラスタリングに異なる k 値を使用すると、最終結果は異なります)

2. ランダムに生成された初期化重心(初期化重心によって引き起こされる悪い結果によるクラスタリング結果を避けるために、さらにいくつかの初期化重心のセットを生成して、いくつかのクラスタリング結果のセットを生成できます)

3. 計算プロセスにおける空のクラスター(一部のサンプルポイントは、クラスタリングプロセス中にどのクラスターにも属さない場合があります。これは空のクラスターと呼ばれます。空のクラスターがクラスタリングの結果に与える影響を回避するには、空のクラスターは空にならないように質点を指定します)

4. 外れ値

5. 異性のデータ

4. 密度ベースのクラスタリング手法 DBSCAN

(ノイズ指向の密度ベースの空間クラスタリング)

クラスタリング方法は、サンプル分布の密さを説明する一連の近傍パラメータ (近傍半径、近傍密度閾値)に基づいており、これをクラスタリングの基礎として使用します。

プロセス：

1. 近傍半径と近傍密度のしきい値を設定します。

2. サンプルポイントのタイプを計算します(データセット内のすべてのサンプルをコアポイント、境界ポイント、またはノイズポイントとしてマークします)。

3. クラスタリング(最初にコアポイントをクラスタリングし、次に近傍半径よりも距離が小さいコアポイントをクラスタにマージし、境界点をそれに関連付けられたコアポイントのクラスタにマージします。ノイズポイントはクラスタ化されません。任意のクラスター)

特徴:事前にクラスタ数を定式化する必要がなく、K-means クラスタリング法と比較して、DBSCAN クラスタリング法で得られるクラスタの形状は球形に限定されなくなり、任意に分布させることができます。

5. 階層型クラスタリング手法（AGNESクラスタリング手法）

階層ベースのクラスタリング手法は、データセットをさまざまな階層に基づいてクラスターに分割することです。階層的クラスタリング手法には、ボトムアップ凝集手法とトップダウン分割手法の 2 種類があります。

AGNES は、ボトムアップ凝集戦略を使用した階層的クラスタリング手法です。まず、データセット内の各サンプルポイントを個別のクラスターと見なし、次に、クラスターの事前設定数に達するまで、最も近い 2 つのクラスターをマージします。

特徴:あらゆる形状のクラスタリングに適しており、K-means クラスタリングと比較して外れ値の影響が少ない。

6.Pythonコード

(1) K-means クラスタリング

from sklearn.cluster import KMeans
kmeans=KMeans(n_clusters=4)
# 对数据集X进行聚类
kmeans.fit(X)
# kmeans.labels_输出数据集X的每个样本的分簇结果
y=kmeans.labels_
# kmeans.cluster_centers_输出聚类后簇的中心点（质点）的位置
centers=kmeans.cluster_centers_

# labels是聚类模型对新数据X1中每个样本的预测分簇结果
labels=kmeans.predict(X1)

パラメータの説明:

n_clusters は準クラスタリングです

（2）DBSスキャン

from sklearn.cluster import DBSCAN
dbscan = DBSCAN(eps=0.3,min_samples=5)
dbscan.fit(X)
y=dbscan.labels_

パラメータの説明:

esp は近傍半径、min_samples は近傍密度しきい値です。

（3）アグネス

from sklearn.cluster import AgglomerativeClustering
agg=AgglomerativeClustering(n_clusters=4,linkage='single')
agg.fit()
y=agg.labels_

パラメータの説明:

n_clusters はクラスター化されるクラスターの数であり、リンケージはクラスターまでのクラスター間距離に基づきます。(「単一」は単一のリンクを意味し、「完全」は完全なリンクを意味し、「平均」は両方のリンクを意味します)