どのブログでも、どのモットーでも、人は自分が思っている以上のことができる。
https://blog.csdn.net/weixin_39190382?type=blog

0. 序文

DBSCAN、OPTICS クラスタリングを補完

1.本文

1.0 DBSCAN の問題

以前に、密度に従ってクラスタリングできるDBSCANを紹介しました。
しかし、次のような問題があります。

epsが大きい場合、A、B、Cが分割されます
epsが小さい場合、C1、C2、C3が分割され（A、Bはノイズとみなされます）、
A、B、C、C1、C2、C3は取得されません

異なるクラスターの密度は異なる場合があります。2 つの DBSCAN は固定の eps を設定し、それらの一部を無視します。

画像の説明を追加してください

1.1 基本概念

核心点: DBSCAN を参照

コア距離: 点 p をコア点にする最小距離。

例: 近傍の半径は eps=2、サンプルの最小数は min_samples= 5、
点 p です。半径 eps=2 の場合、サンプル点は 8 つあります。すると p が中心点になります。
点 pに最も近い 5 番目の点は、その中心点 p からの距離が 0.8 であるため、点 p の中心距離は 0.8 です。

注: min_samples を計算する場合、コアポイント自体が含まれるため、上記では近傍 eps で 7 つのポイントを見つけるだけで済み、p がコアポイントになります。

到達可能距離:点 pからコア点o までの到達可能距離は、 p と o の間の距離と o の中心距離の間の最大値です。( LOFアルゴリズムの到達可能距離と同様に参照できます)

人間の言葉で言えば、点はドメインの半径内にも半径外にもあります。

例1:

点 p は、コア点 o1 のコア距離の外側にあるため、到達可能距離reach-dist=d(p,o1)
ポイント p はコアポイント 02 のコア距離内にあるため、到達可能距離reach-dist = d_5(o2)

例2:
点 1、2、3 はコア距離内にあるため、それらからコア点までの到達可能な距離 = コア距離
画像の説明を追加してください

1.2 アルゴリズム処理

一般的に言えば、オフラインでの発展は依然として日常的なことであり、オフラインでの関係の親密さには1つだけ違いがあります。

2 つのキューを定義する
- コアポイントと密度ダイレクトポイント（コアポイントの近傍のポイント）を格納し、到達可能な距離の短い順に並べた順序付けされたキュー、処理対象のサンプル
- 結果キュー、サンプルポイント出力の保存、処理されたサンプル
未処理のコアポイントを選択して結果キューに入れ、近傍のサンプルの到達可能距離を計算し、到達可能距離の昇順で順序付きキューに入れます。
順序付きキューから最初のサンプルを抽出します。コアポイントの到達可能距離が計算された場合は、到達可能な距離が最も小さいものを結果キューに入れます。コアポイントでない場合は、このポイントをスキップし、新しいコアポイントを選択します。、ステップ 2 を繰り返します
すべてのサンプルポイントが処理されるまでステップ 2 と 3 を繰り返し、サンプルと到達可能な距離を結果キューに出力します。

1.3 結果

出力は到達可能な距離とサンプル点の順序です。

クラスターはグラフ内で谷として表示されます。谷が深いほど、クラスターの密度は高くなります。
黄色はノイズを表し、谷を形成しません

画像の説明を追加してください

1.4 概要

OPTICS アルゴリズムは、到達可能な距離に従って各クラスター内のポイントを並べ替え、特定のパラメーターの下で出力します。サンプルポイントの到達可能な距離を計算するプロセスでは、コアポイントから開始して、その ϵ \ イプシロンを見つけます $ϵ$ 内のすべての点および中心点を中心としたこれらの点の中心距離を順番に計算し、それらの $\epsilon が$ フィールド点コア点が、新しい $\epsilon$ フィールド内のすべてのサンプルポイント、および新しいコアポイントに関してこれらのサンプルポイントの到達可能な距離を計算し、それらを並べ替えます。これらが新しい $\epsilon$ 領域内の特定のサンプル点は、 $\epsilon$ がすでにフィールド内に存在する場合、サンプル点の到達可能距離は、2 つのコア点に対するサンプル点の到達可能距離のうち小さい方として定義されます。など、クラスター内で到達可能な距離が増加する順列を。最初のクラスターの中心点の $\epsilon$ フィールドにコアポイントがなくなった場合は、この時点でクラスターの境界に到達したことを示します。次に、別のクラスターの始まりを示す次のコアポイントを選択します。これにより、OPTICS 出力結果の曲線で、最高点に達した後、急速に低い点に下降する傾向が見られます。これは、別の密集していることを示します。クラスタの始まりは最初のクラスタの処理フローと同じであり、各クラスタの処理後に出力曲線が得られます。

参考

[1] https://zhuanlan.zhihu.com/p/408243818
[2] https://zhuanlan.zhihu.com/p/77052675
[3] https://blog.csdn.net/haveanybody/article/details /113782209
[4] https://zhuanlan.zhihu.com/p/395088759
[5] https://blog.csdn.net/PRINCE2327/article/details/110412944
[6] https://blog.csdn.net /markaustralia/article/details/120155061
[7] https://blog.csdn.net/m0_45411005/article/details/123251733#t1

[クラスタリングアルゴリズム] OPTICSは密度クラスタリングに基づいています