機械学習 - クラスタリング - 密度クラスタリングアルゴリズムのメモ

密度のクラスタリング:1.DBSCAN 2.アルゴリズムの最大濃度

イデオロギー密度クラスタリング方法を案内する限り閾値よりサンプル点の高密度ように、次に、最も近いクラスタにサンプルを追加することです。

距離ベースのクラスタリングアルゴリズム「ラウンド」(凸)に見られる欠点を克服することができるようなアルゴリズムは、任意の形状のクラスターで見出され、ノイズの多いデータに対して敏感ではないことができます。しかし、密度が単位大きい計算の複雑さ、計算量を減らすために空間インデックスの必要性を計算します。

DBSCAN(ノイズを使用したアプリケーションの密度ベースの空間クラスタリング)

密度に基づいて、より代表的クラスタリングアルゴリズム。そして分割して階層的クラスタリング法、最大設定点は、それが接続されているクラスタの密度として定義され、クラスタの十分に高密度領域分割を有することが可能であり、「ノイズ」クラスタ化する任意の形状データが見つかっていてもよいです。

  ε-近傍オブジェクト:所与の半径ε内のオブジェクト領域。

  コアオブジェクト:指定された数mの場合、εの近傍オブジェクトは、少なくともm個のオブジェクトが含まれている場合、オブジェクトは、オブジェクト・コアと呼ばれています。

直接密度アップ:pはQのε-近傍であり、qはコアオブジェクトの場合、オブジェクトDの組が与えられると、我々は、被検体Pからオブジェクトおよびqは、直接密度到達可能であることを言います。

図ε= 1センチメートル、M = 5、qはコアオブジェクトであり、Qのオブジェクトpからオブジェクトを直接密度到達可能です。

  

  密度アップ:オブジェクトPの連鎖がある場合。1つの P 2 ... PのN -、P 。1 = Q、P N - = P、PとI ∈D、(1≤i≤n)、P I + +1は、PIε程度からmは密度到達直接、被検体PであるIは+ 1オブジェクトからεQおよびM上の密度に到達可能です。

接続密度:オブジェクトD 0におけるオブジェクトのコレクション、pおよびqがある場合、εpおよびq及びM上のオブジェクトが密度に接続され、ε0とM上のオブジェクトは、濃度到達可能であるようなものです。

クラスター:クラスター密度は、最大濃度の接続されたオブジェクトのコレクションに基づいています。

ノイズ:ノイズと呼ばれるオブジェクトのいずれかのクラスタに含まれていません

  

  DBSCANアルゴリズム・プロセス:

オブジェクトはM以上を含むε-点pの近傍は、pはコアオブジェクトとして新しいクラスタを作成する場合、

検索コア対象物に直接到達可能な密度をマージ。

ませ新しいポイントがクラスタ化アルゴリズムの終了を更新することはできません。

  上記のアルゴリズムから:

各クラスタは、少なくともコアオブジェクトを含みます。

非コアオブジェクトがクラスタの一部であってもよい、クラスタエッジ(エッジ)を構成します。

オブジェクトが含まれてい少なすぎるクラスタはノイズと考えられています

最大濃度クラスタリング

最大濃度クラスタリングアルゴリズムがシンプルでエレガントなクラスタリングされ、クラスタ・タイプは、様々な形状に識別することができる、およびパラメーターを容易に決定することができます。

定義:局所密度のρ I、カットオフ:

D Cが切り取ら、ρはあるI、すなわち被写体までの距離がDのi未満であるCのオブジェクトの数。アルゴリズムはDので、ρiの相対値に対してのみ敏感であるため、Cは音を選択Dを選択することをお勧めしているC、すべての点の、各点の近傍の平均数であることが1%-2%を

    ガウスカーネル類似度:

        

   K隣人の意味します:

  

定義:高局所密度点距離[デルタ] I

      

オブジェクトのすべての上記の目的密度Iで、最も近い距離、すなわち、高い局所濃度点距離にオブジェクトI。
。1オブジェクトの最大濃度、提供ゲルマニウムδ:I = MAX(D用のIJ)(即ち:無限の問題)。
2のみローカルまたはグローバルの最大濃度点のある方は、通常の高い局所濃度点の距離よりもはるかに大きなを持っています。

認識クラスタ中心

1)大きい局所密度ρiと高密度点距離ΔIの多くのものは、クラスタの中心であると考えられている;
2)高密度大きい距離ΔIが、ローカル密度ρiマイナーな点は外れ値である
クラスタの中心を決定後最も近い既知のクラスター分類の中心の距離に応じてその他の点
注:この方法はまた密度到達に従って分類することができます。

DensityPeak決定図の決定グラフ

左側は横軸は、図にプロット縦決定をδする権利であるとしてρ、全ての点の二次元空間に分布しています。1と10の二点ρ、見ることができ、I及びδ:iがクラスタの中心点として、大きいです。26,27,28三点:δ Iが比較的大きいが、ρは、私はそれが異常な点で、小さいです。

ヘビー認識国境やノイズ

1)クラスター分析では、しばしば必要がクラスタに割り当てられた各点の信頼度を決定します。

2)このアルゴリズムでは、各クラスタ、すなわちクラスタに割り当てられたが、他のクラスタ距離点がD未満である、第1の境界領域(境界領域)として定義されてもよいCのセットポイント。それは局所密度ρとなるように、次いで、各クラスタの最大局所密度境界エリアのそのポイントを見つけるHは

3)密度は、ローカルクラスタの全てよりも大きい、ρ Hの点がクラスタのコア(すなわち、点がこのような大規模なクラスタの信頼性に割り当てられた)の一部であると考えられ、残りの点は(クラスクラスタハロであると考えられていますハロ)、すなわち、それはノイズとみなすことができます。

注:信頼性の問題については関与EMアルゴリズムでは、まだ関連になります。

親和性伝播:APクラスタリングアルゴリズムは、あなたがこの記事を見てみることができます。

おすすめ

転載: www.cnblogs.com/yang901112/p/11615631.html