カテゴリカル データ クラスタリングのためのリンクベースのクラスター アンサンブル アプローチ(IEEE Transactions on Knowledge and Data Engineering '12)
リサーチクエスチョン
科学の質問
分類されたデータのクラスタリング問題を最適化するためにクラスタリング セットの方法を使用することには、従来のアルゴリズムと比較して一定の利点がありますが、最下層は不完全なデータ パーティションに基づいているため、クラスタリング結果の品質が低下します。したがって、この論文は、セット内のクラスター間の類似性を発見することによって従来の行列を改善し、同時にグラフ分割技術を最適化された行列に適用します。
研究の核心
CDC 問題を CE の観点から最適化問題として定義し、カテゴリカル データのクラスタリングに CE アプローチを適用します。
既存のアルゴリズムの欠点
不完全なクラスタリング情報に基づいて最終的なデータ パーティションを生成します。基礎となるセット情報マトリックスは、クラスターとデータ ポイント間の関係のみを表し、クラスター間の関係を完全に無視します。
研究によると、アンサンブルは、複数の反復にわたる単一のアルゴリズムの結果が通常非常に類似するデータ クラスタリングの場合、特に、さまざまな誤差を持つ一連の予測期間から構築された場合に最も効果的であることが示されています。セットのすべてのメンバーが何らかの分割について同意した場合、集約の結果は、どの構成メンバーよりも改善されません。したがって、この場合、クラスタリング アルゴリズムに人為的な不安定性が導入され、セットに多様性が提供されます。
-
均質なアンサンブル
-
ランダム - k
-
データ部分空間/サンプリング
-
異種混合
-
混合ヒューリスティック
現在主流のコンセンサス関数は以下の4種類に分類されます。
-
機能ベースのアプローチ
基礎となる各クラスターは、各データ ポイントを説明する新しい特徴としてクラスター ラベルを提供します。
※ダイレクトアプローチ
基礎となる各クラスターには、一意の決定ラベルのセットがあります。
* ペアごとの類似性アプローチ
これは、含まれるデータ ポイント間に類似性を作成することと同等であり、類似性に基づくクラスタリング アルゴリズムをこれに適用できます。(階層的クラスタリングなど)
* グラフベースのアプローチ
グラフ表現を使用してクラスタリング セットの問題を解決します。
各属性は基礎となるクラスターとみなされ、一意のデータ パーティションを提供します。特に、特定の属性パーティションのクラスターは、特定の属性値 (クラスター化結果) のデータ ポイントを共有します。したがって、セットのサイズは、すべてのデータ属性の分類結果の数によって決まります。
しかし、これらの手法は基本集合情報をかなり大まかにまとめたものであり、多くの行列情報は0のままであるため、どの合意関数を採用しても最終的なクラスタリング結果の品質が低下する可能性があります。
論文の研究意義
リンクベースの方法を適用して、クラスター間の隠された情報をマイニングします。
理論と方法
アルゴリズムの 3 つの主なステップ:
1) ベースクラスターを作成してクラスターのセットを形成します
2) リンクベースの類似性アルゴリズムを使用して、洗練されたクラスタリング発生率行列 RM を生成します。
3) スペクトル グラフ パーティションをコンセンサス関数として使用して、最終的なデータ パーティションを生成します。
クラスターアンサンブルを作成するにはどうすればよいですか?
- ダイレクトアンサンブル
各属性はクラスタリング結果を生成できます。属性の値には多くの値があり、クラスター センターの数とクラスターにあるデータ パーティションの数を示します。
この形式は、k モードなどの基本的なクラスタリングを実行せずに、データをクラスタリング アンサンブルに直接変換することに相当します。ただし、単一属性のデータ分割は、すべてのデータ属性のクラスタリングで得られるデータ分割ほど正確ではない可能性があります。しかし、1つのセット重量で非常に多様な重量をもたらすことができます。
- 全空間アンサンブル
これは、クラスタリング アルゴリズムを使用してクラスタリング結果を取得するのと同じであり、多様性を高めるために、ランダム k と固定 k を使用します。
- 亜空間アンサンブル
これは、サンプリングされたサブセットに作用する各クラスタリング アルゴリズムと同等であり、サンプリングされたサブセットは実際には、部分空間の下限と上限でマークされたサンプリング選択属性です。次に、ランダム k と固定 k を適用します。
洗練されたマトリックスを作成するにはどうすればよいですか?
実際、各データ ポイントは、特定のクラスターのいくつかのクラスターに関連している可能性があります。これらの隠れた関連性または未知の関連性は、クラスター ネットワークから発見されたクラスター間の類似性によって推定できます。
これは、クラスター間の類似性の尺度を追加することと同じです。
上記の点とクラスター間の類似度行列は、次のように変換できます。
洗練されたマトリックスに基づくグラフを使用した最終的なクラスタリング
具体的な方法:
RM は N のデータ点を表し、P はアンサンブル pi を表し、重みマップ G=(V,W) V はデータ点とクラスターを表し、W は次のように定義されます。
まず、K 個の最大の W 固有ベクトルを見つけて行列 U を形成します。
行は単位長に正規化され、U の行をグラフ頂点の K 次元埋め込みとして扱うことにより、SPEC はこれらの埋め込み点に k 平均法を適用して、最終的なクラスタリング結果を取得します。
ハイライト
リンクベースの方法に基づいて洗練されたマトリックスは、実際には類似性メトリックに非常によく似ており、属性間の類似性の分析にも基づいています。