- ここでは唯一の外部ラベル、ラベル自然の良い判断せずにケースを議論
データクラスタ機能
- 近い他のクラスタに中心距離に中心からの距離と比較して、データセットの一般的に球形の分布:データセンターのクラスタ定義の
- 濃度データクラスタの定義:不規則又は絡み合っデータのクラスター、及びノイズ及び異常値は、頻繁に使用されます
- クラスタ定義データ通信:通信関係
- 概念データのクラスタ定義:Aの同じ性質を有する同じデータセット
クラスタリングの実現可能性
クラスタのデータ構造の非ランダム分布が存在するか否かを検出します
方法
クラスタリングの誤差が(適当なKを見つける。)クラスタ増加単調カテゴリの数として観測されます
データのホプキンス統計ランダム性はスペースで決定されます
まず、表記、すべてのサンプルにランダムなn個の点を見つける\(P_1、\ cdots、P_N \)を、それらのそれぞれに1つのポイントは、サンプル空間内でそれらの間のプレスへの最も近い点を発見されました距離\(X_I \) 、これにより、距離ベクトル\(X_1、\ cdots、x_nに関する\)は、次にランダムにn個のサンプル点の可能な値の範囲から生成された、と呼ばれる(Q_1、\ cdots、Q_N \)\、彼らは、各点が与える距離を計算するための最も近いサンプルポイントを見つける(Y_1、\ cdots、y_nを\)\。ホプキンス統計は\(H \)として表現されます
\ [H = \ FRAC {\和\ limits_ {iは1 =} ^ N Y_I} {\和\ limits_ {iは1} ^ {n}はX_I + \和\ limits_ {= I 1} ^ {n}はY_Iを= } \]
0.5サンプルがランダムに分布している場合、H閉じます。傾向クラスタリングが存在する場合、サンプル点からランダムに生成された実際のサンプル点が近いH 1の値に、有意に大きい距離でなければなりません。
意思決定データクラスタのカテゴリ
- 肘法とギャップ統計法
- クラスクラスタのクラスタベースの出力を評価するための最良のデータは、プログラムと異なる場合があります
クラスタリング品質の決意
発散内のクラスとカテゴリの調査発散
- プロフィール要因
- RMSE:クラスターの均質性の尺度、すなわち、コンパクト(クラス間散乱)
- R-乗:違いをクラスタリングの尺度(クラス間散布)
- 改善されたヒューバート\(\ガンマ\)統計:矛盾することにより、データのクラスタリングの違いを評価します