まず、パフォーマンスメトリック
また、クラスタリングとして知られている有効性の指標を、クラスタリングパフォーマンスメトリック。
二つのカテゴリーにクラスタリングパフォーマンスメトリック:
- クラスタリング結果と呼ぶ参照モデルと比較される外部インジケータ。
- 調査クラスタリング結果を直接任意の参照モデルを用いずに、と呼ばれる内部インジケータ。
1.外部指標
データに対してD = {X_1、X_2、...、x_nに関する} $、クラスタリング分析にクラスタリングによって想定される$ C = {C_1、C_2、...、C_K} $、所定の基準モデル$を設定しますクラスタに分割されている$ C * = \ {C_1 ^ *、C_2 ^ *、...、C_K ^ * \} $ K $と$ K「は$は必ずしも等しくない場合$、。
$ \ラムダ、\ラムダ^ * $はそれぞれ$ C、C ^ * $クラスタトークンのベクトルを作成します。定義:
どこで|・|次のように集合の要素数、各セットの重要性を表します。
- $ SS $:$ C、のC ^ * $のサンプルに属し、同じ時間が含まれています。
- $ SD $:含まれているが$ C $に属しているが、の$ C ^ * $のサンプルと提携していません。
- $ DS $:それは$ C $と提携していない含まれていますが、の$ C ^ * $のサンプルの一部です。
- $ DD $:$ C、のC ^ * $のサンプルと提携していないされているのと同じ時間が含まれています。
$(X_I、X - jが)$の各サンプル以来、$ I <J $はセットのみで表示され、それがあります
+ B + C + D = \ FRAC {N(N-1)} $ {2} $
以下に、[0,1]の間のパフォーマンス・メトリックの結果、値が大きいほど、よりよいクラスタリング性能です。
1.1ジャカード係数
$ JC = \ FRAC {} {+ B + C} $
それはしばらく、同じペア(同じ種類のCで、いずれかの* Cにおける同種の)のサンプルのすべてを描い
1.2 FMインデックス
1.3ランドインデックス
1.4 ARIインデックス
2.内部指標
2.1 DB指数
2.2ダンインデックス
3.距離の測定