クラスタリングアルゴリズムの学習

素晴らしいクラスタリング学習

序章

質問

1. 多くのアルゴリズムでは、開発者が分析プロセス中に特定のパラメーター (クラスターの予想数 K、クラスターの初期重心など) を提供する必要があるため、クラスタリングの結果がこれらのパラメーターに非常に敏感になり、開発悪化するだけではありません。オペレータの負担もクラスタリング結果の精度に大きく影響します。

最適化

  1. スケーラビリティ:
    クラスタリング オブジェクトが数百から数百万に増加しても、最終的なクラスタリング結果の精度が一貫したままであることを期待します。

  2. さまざまなタイプの属性を処理する機能:
    一部のクラスタリング アルゴリズムは、オブジェクトの属性のデータ タイプのみを処理できますが、実際のアプリケーション シナリオでは、他のタイプのデータ (バイナリ データなど)、分類データなどに遭遇することがよくあります。データの前処理時にこれらの他のタイプのデータを数値データに変換することもできますが、クラスタリングの効率やクラスタリングの精度が失われることがよくあります。

  3. 任意の形状のクラスターを検出する:
    多くのクラスタリング アルゴリズムは距離 (ユークリッド距離やマンハッタン距離など) に基づいてインスタンス オブジェクト間の類似性を定量化するため、この方法に基づくと、多くの場合、同様のサイズと密度の球形のクラスターまたは凸クラスターのみが見つかります。ただし、多くのシナリオでは、クラスターの形状は任意である可能性があります。

  4. クラスタリング アルゴリズムの初期化パラメータに関する知識要件の最小化:
    多くのアルゴリズムでは、開発者が分析プロセス中に特定のパラメータ (予想されるクラスタ数 K、クラスタの初期重心など) を提供する必要があるため、これらに対して正確ではないクラスタリング結果が得られます。パラメータは非常に機密性が高いため、開発者の負担が増大するだけでなく、クラスタリング結果の精度にも大きな影響を与えます。

  5. ノイズのあるデータへの対処能力:
    いわゆるノイズのあるデータは、クラスタリング結果に影響を与える干渉データとして理解できます。これらのノイズのあるデータの存在は、クラスタリング結果の「歪み」を引き起こし、最終的には低品質のクラスタリングにつながります。

  6. 増分クラスタリングと入力順序の影響を受けない: 一部のクラスタリング アルゴリズムでは、新しく追加されたデータを既存のクラスタリング結果に挿入できません。入力順序の
    感度とは、指定されたデータ オブジェクトのセットに対して、異なる順序で入力オブジェクトが提供されると、最終的なクラスタリングの違いが生じることを意味します。結果は比較的大きくなります

  7. 高次元性:
    一部のアルゴリズムは 2 次元または 3 次元データの処理にのみ適していますが、高次元空間内のデータの分布は非常にまばらで非常に偏っている可能性があるため、高次元データの処理能力は非常に弱いです。 。

  8. 制約ベースのクラスタリング:
    実際のアプリケーションでは、さまざまな条件下でクラスタリングを実行する必要がある場合があります。これは、同じクラスタリング アルゴリズムでも、異なるアプリケーション シナリオで異なるクラスタリング結果が得られるためです。そのため、「適切なクラスタリング プロパティを備えたデータ グループ化」を満たすソリューションを見つけてください。特定の制約は非常に困難です。ここで最も難しい問題は、解決したい問題に暗黙的に含まれる「特定の制約」をどのように特定するか、そしてこの制約に最適に「適合」するにはどのようなアルゴリズムを使用するかです。

  9. 解釈可能性と使いやすさ:
    クラスタリングの結果が特定のセマンティクスと知識に基づいて説明され、実際のアプリケーション シナリオに関連付けられることを期待しています。

分類

距離密度の相互接続性

情報理論の観点から見たクラスタリングアルゴリズムの理解

直感的に、私たちは 2 つの相反する目標を達成したいと考えています。
1. 一方で、ドキュメント属性とクラスター属性の相互情報をできるだけ小さくしたいと考えています。これは、元のデータを強力に圧縮したいという要望を反映しています。
2. 一方、クラスタリング変数と単語属性の相互情報量はできるだけ大きくする必要があります。これは、ドキュメント情報 (ドキュメント内の単語の出現によって表される) を保存するという目標を反映しています。パラメトリック統計における最小十分統計量は、任意の分布に一般化されます。
情報ボトルネック基準の下で最適化問題を解決することは通常非常に困難であり、その解決策のアイデアは EM 基準に似ています。
3. 相互情報量の概念が大きいほど両者の相関は大きくなる マルコフ連鎖の理解は情報理論でも理解できます。

K-Means アルゴリズム (K-means クラスタリング K-means クラスタリング アルゴリズム) - ハード除算に基づくクラスタリング

特定の K 平均法アルゴリズムの詳細を学ぶ前に、K 平均法に固有のいくつかの問題を理解する必要があります。

1. K 平均法アルゴリズムの目的関数最適化プロセスは単調非増加粗い (つまり、各反復で少なくとも結果が悪化することはない) が、K 平均法アルゴリズム自体は目的関数の最適化に関する理論を提供しません。収束を達成するための反復回数が保証されます。
2. アルゴリズムによって与えられる k-means 目的関数の出力値と、目的関数の最小値との差には自明な下限はなく、実際、k-means は極小値に収束する可能性がありますK 平均法の結果を改善するには、異なるランダムな初期化中心点を使用し、プログラムを複数回実行して、最良の結果を選択するのが一般的です。さらに、初期化中心を選択するために K 平均法アルゴリズムのプレアルゴリズムとして使用できる教師なしアルゴリズムがいくつかあります。
3. 距離二乗和基準に従ったトレーニング セット上の「最良の」クラスタリングでは、必然的にデータ ポイントと同数のクラスタが選択されます。このとき損失は 0 であるため、この傾向を抑えるためには、モデル構造の複雑さを罰するMDL 基準を適用し、モデルの複雑さと損失目標の最適化のバランスを図る必要があります。プロセス: 1. クラスター中心 k の数2. 初期クラスター中心の選択 (通常はランダムに生成) 3. 残りのサンプル ポイントは、今年の距離計量基準に従って分類されますLP 距離式4. 距離を計算するための条件収束とは、教師なし学習アルゴリズムである Kmeans は、クラスター化された「クラスター」が「実用的な意味」を持つことを保証しません。つまり、Kmeans によって取得された分類されたグループは、ユークリッド空間内の類似した点セットにすぎない可能性がありますが、実際には、それらは実際に同じカテゴリに属している必要はありません。一方で、Kmeansの分類結果はK値と強い相関があるため、「無理な」K値を渡すとKmeansの過学習につながり、最終的には「誤った」分類結果が得られる可能性があります。応用:






ここに画像の説明を挿入



複雑なデータがクラスター化された後、分類されたデータを使用して、小さなデータと削減された次元を実現します (たとえば、96615 ピクセルが 64 ピクセルにクラスター化されます)。k -means++ アルゴリズムは、この問題をある程度解決します。初期シードの基本的な考え方は、初期クラスターの中心間の距離は可能な限り遠くなければならないということです。K-means++ クラスタリングの基本的な考え方は次のとおりです。最初の中心点はランダムに選択されますが、互いに遠く離れた点については他の点が優先的に選択されます。

リンククラスタリングモデル

リンクベースのクラスタリング アルゴリズムは凝集的です。最初はデータが完全に断片化され、その後、徐々に大きなクラスターが構築されます。停止ルールを追加しない場合、リンク アルゴリズムの結果は、次の樹状図として使用できます。クラスタリング システム、つまりドメインのサブセットで構成されるツリーを説明すると、そのリーフ ノードは単一要素のセットであり、ルート ノードはドメイン全体です。
一般的な停止基準には次のものがあります。
クラスの固定数: 固定パラメータ k、クラスタ数が k になったときにクラスタリングを停止します。この停止基準を使用するには、シーンに関する強力なドメイン知識、つまり、クラスター化する必要があるクラスターの数を事前に知っている必要があります。距離の上限を設定する: ドメインのサブセット間の距離の最大上限を設定します
。特定の反復ラウンドで、すべてのコンポーネント距離がしきい値を超えた場合、クラスタリングを停止します。
停止基準がない場合、最後に残るのは 1 つのクラス (宇宙) だけです。

DBSCAN (ノイズを含むアプリケーションの密度ベースの空間クラスタリング) - 密度ベースのクラスタリング アルゴリズム

密度ベースのクラスタリング手法と他の手法の基本的な違いは、さまざまな距離測定に基づくのではなく、密度に基づいていることですしたがって、距離ベースのアルゴリズムでは「円状」のクラスターしか見つけられないという欠点を克服できますDBSCAN の基本的な考え方は、領域内の点の密度が一定以上である限り、点の ∈ 近傍にある隣接点の数を使用して、その点が位置する空間の密度を測定することです。閾値を超えると、それに近いクラスターに追加されます。Go は、奇妙な形状のクラスターを見つけることができ、クラスター化の際に事前にクラスターの数を知る必要はありません。クラスター内に位置し、特定のクラスターに確実に属します。ノイズ ポイントはデータ セット内の干渉データであり、どのクラスターにも属しません。境界点は特別な種類の点で、エッジに位置します。 1 つまたは複数のクラスターのうち、1 つのクラスターに属している場合もあれば、クラスターの所属が明確ではない別のクラスターに属している場合もあります。 最小距離と最大距離を表すことによって画像内のクラスター中心を決定します




ここに画像の説明を挿入

ここに画像の説明を挿入

SOM (自己組織化マップ) - モデルベースのクラスタリング (モデルベースの手法)

モデルベースの方法では、クラスターごとにモデル (事前に指定された) を想定し、このモデルを十分に満たすデータセットを検索します。このようなモデルは、空間内のデータ ポイントの密度分布関数またはその他のものである可能性があります。その基礎となる仮定の 1 つは、
ターゲット データ セットが一連の確率分布によって決定されるということです。
通常、試行する方向は 2 つあります: 統計スキームとニューラル ネットワーク スキーム

  1. 順序保持マッピング: 入力空間のサンプル パターン クラスを出力層に順序よくマッピングします。
  2. データ圧縮: SOM ネットワークには、トポロジー構造を変更せずに高次元空間のサンプルを低次元空間に投影する際に明らかな利点があります。入力サンプル空間の次元がいくつであっても、そのパターンは SOM ネットの出力層の特定の領域に対応する可能性があります。SOM ネットワークがトレーニングされた後、同様のサンプルが高次元空間に入力され、出力の対応する位置も同様になります。
  3. 特徴抽出: 高次元空間サンプルから低次元空間へのマッピング、SOM ネットワークの出力層は低次元特徴空間と同等
  4. 処理はKmeansと似ていますが、このように高次元から低次元までを実現する重みモデルがあり、この重みモデルは後の学習にも利用できます。そして高次元データを視覚化します。

##EM アルゴリズム
EM アルゴリズムは、隠れ変数 (隠れ変数) を含む確率モデル パラメーターの最尤推定、または最大事後確率推定のための反復アルゴリズムです。
#GNG: 成長するニューラル ガス ネットワーク

要約:
クラスタリング:
サンプルには多くの特徴がありますが、クラスタリングのターゲット y は一般に特徴よりも小さいです。y については、y' とサンプルの y' の間の相互情報ができるだけ大きくなければならず、他のサンプルの特徴は次のようになります。ここでは、 y' 因子分析を使用して他のサンプルの特徴と融合できます。考え方には主に2つの側面があります。
クラスタリングは教師なしなので、主な思考方向は学習(ニューラルネットワーク、モデル手法)、反復(K-means)、階層(ツリー)、成長(GNG)で大きなフレームワークを構築し、継続的に修正することが目的ですが、オーバーフィッティング (MDL 原則ペナルティ) の場合もあり、多くのアルゴリズムは経験によってアルゴリズムの基準値を終了するように設定されています。
特徴の場合、クラスタリング中心または分類基準は、距離 (マンハッタン距離、オイラー距離、柔軟な距離統計関数 (ガウス カーネル) など)、密度、確率の 3 つの角度によって決定されます。

おすすめ

転載: blog.csdn.net/Carol_learning/article/details/104107647