クラスタリング:
データセット内のサンプルをいくつかの互いに素なサブセットに分割しようとします。各サブセットは「クラスター」と呼ばれます。
パフォーマンス指標:
クラスタリングのパフォーマンス測定は、クラスタリングの「有効性指標」とも呼ばれます。一般に、クラスタリング結果の「クラスタ内類似度」は高く、「クラスタ間類似度」は低いことが望ましい。
クラスタリングのパフォーマンス メトリックには、外部メトリックと内部メトリック の 2 種類があります。
外部メトリクス: クラスタリングの結果を「参照モデル」と比較します。
x はデータセット データ、C はクラスタリング分割の結果、C* は参照モデルによって与えられるクラスタ分割結果、*はそれぞれ C と C* に対応するクラスタ ラベル ベクトルを表します。したがって、一般的に使用されるクラスタリング パフォーマンス測定の外部指標は次のとおりです。
上記の指標の結果はすべて [0, 1] の範囲内にあり、値が大きいほど良好です。
内部メトリクス: 参照モデルを利用せずにクラスタリング結果を直接検査します。
クラスタ C の中心点を表す2 つのサンプル間の距離を計算するために使用される、クラスタリング結果 のクラスタ分割を考えてみましょう。
上記の 4 つの式から、一般的に使用されるクラスタリング パフォーマンス メトリックの内部指標を推定できます。
DBIの値は小さいほど良好であり、DIの値は大きいほど良好である。
距離計算:
関数 の場合、それが「距離測定」の場合、次の基本特性を満たします。
一般的に使用される「ミンコフスキー距離」:
P=2 の場合、ミンコフスキー距離はユークリッド距離です。
P=1 の場合、ミンコフスキー距離はハーマントン距離です。
プロトタイプのクラスタリング:
プロトタイプ クラスタリングは、「プロトタイプ ベースのクラスタリング」とも呼ばれます。
K 平均法アルゴリズム
クラスタリングによって得られたクラスタ分割 C に従って、二乗誤差は最小化されます。
はクラスター C の平均ベクトルであり、クラスター平均ベクトルを中心としたクラスター内のサンプルの近さをある程度表し、E 値が小さいほど
クラスター内のサンプルの類似性が高くなります。
K 平均法アルゴリズムは貪欲戦略を採用しており、アルゴリズムの擬似コードは次のとおりです。
ベクトル量子化の学習
ベクトル量子化の学習でも、クラスタリング構造を記述するためのプロトタイプのセットを見つけようとしますが、学習プロセスでは、クラスタリングを支援するために独自のカテゴリ ラベルが使用されます。