機械学習 - 階層的クラスタリングアルゴリズム

階層的クラスタリング方法(私たちは非常に少ないと行うアルゴリズム)分解や合併の与えられたデータ・セット・レベルのための特定の条件が満たされるまで、
これまでのところ、従来の階層型クラスタリングアルゴリズムは、次の2つのカテゴリに分かれています。
  ●結束階層的クラスタリング:AGNESアルゴリズム(集積的入れ子)==>ポリシーの適用に底から。
最初にクラスタとして各オブジェクトは、次にクラスター特定の登録に応じて、二つのクラスタの間でステップバイステップは、組み合わされた
距離は、2つの異なるクラスタの最も近いデータ点の類似性によって決定することができる。クラスタリング合わせた処理が繰り返される
クラスタの数を満たすすべてのオブジェクトまで。いくつかのクラスに、より結束して
  ●階層的クラスタリング分割トップダウン戦略を使用してDIANAアルゴリズム(分裂分析を)==>:。最初の
クラスタに配置されているすべてのオブジェクトの、およびいくつかの確立された規則に従って徐々に(例えば最大値としてより小さなクラスタに分ける
ことが終了条件に達するまで、ユークリッド距離)(クラスタまたはクラスタ距離閾値の数に達しました) 。

長所と短所:

簡単、容易に理解できる。
にくくにマージポイント/選択されたフラグメンテーションポイント
マージ/分割操作を取り消すことはできません
適していない大規模なデータセット(メモリに収まらないデータの量)
O(T * N 2)の効率が低下し、T反復の数として、n個のサンプル点であります

クラスタ間距離:階層的クラスタリングは単なるクラスタマージより行うことができます

 階層的クラスタリングの統合戦略:病棟が最小距離で、最大距離を完了し、平均は平均距離であります

その中で、男性2つの行動データ。最大距離によって外れ値自由雄エッジ検出データには優れています

最小距離が優れているとの言葉のクラスタ化

非凸データ外れ値の検出は、階層的クラスタリング不適切。

 

 階層的クラスタリングの最適化アルゴリズム(真実、不使用を伝えるために):

仮定するX1、X2、X3、X4の4つのデータ、所定の閾値5、例えば左サブツリーX1としてランダムサンプルを取るために,,その後、3つのグループに分け、最初のグループはサンプル数であり、 1つのサンプル、座標X1の第二のセット、及び第3のグループは、水平および垂直座標、及び正方形です。

そしてそのような距離X2とX1とのランダムサンプルが、第三の加算、閾値未満で、次に5、次にクラスタ内の、サンプルの最初のグループは2であり、それぞれ水平および垂直座標の第二のセットである計算されますすべてのグループは、二乗和の水平および垂直座標です。

目的:便利平均化する場合、最初のグループそれの第二グループによって分割されません。第三の次元は、クラスタの中心からの距離に次のサンプル点に対して計算されます

おすすめ

転載: www.cnblogs.com/qianchaomoon/p/12129299.html