超スケーラブルなスペクトラルクラスタリングとアンサンブルクラスタリング

超スケーラブルなスペクトラルクラスタリングとアンサンブルクラスタリング

1.Abstract:

高速代表接近最近傍法 - U-SPECにおいて、同様の部分行列のためのスパース構造はハイブリッド選択戦略及びkの代わりに提示されます。スパース類似度行列は、図有効なセグメンテーション、クラスタリング結果を用いて切断転送の二つのサブビューとして解釈されます。

効率的に維持することがU-SPECのロバスト性を向上させながらU-SENCでは、U-SPECクラスタリング複数のさらに、統合されたクラスタ・フレームに組み込まれます。統合マルチU-SEPCは、一貫性のクラスタリング結果を達成するために、ターゲットと新しい基本クラスター、及びその効果的な分割の間の二部グラフ構造に基づいて生成されたS

線形時間と空間の近くにU-SENCと複雑性を持つU-SPEC

 

2.Inrtoduction

なぜなら、その良好な容量分離非線形データセットのスペクトルクラスタリング処理は、しかしながら、従来のスペクトルクラスタリングの主要な制限は、時間と空間でその非常に複雑であり、消費量は、一般に2つのスペクトルクラスタリングを含みます時間及びメモリ消費相、すなわち、類似度マトリックス構築物および分解特性。構造類似性マトリックスは、一般に、必要時間と、メモリを固有値分解を解く問題は、必要とする時間及びNは、データサイズが、dは次元であるメモリを、。データNの量として、スペクトルクラスタリング計算量も増加します。

計算負荷の巨大なスペクトルクラスタリング戦略を減らすために使用されている:1.は、スパースソルバー機能の固有分解して、類似度行列を薄くします。スパース行列の戦略は、まだ我々はすべてオリジナルの類似度行列を計算する必要があり、分解特性を容易にするため、メモリ行列メモリのコストを削減することができます。同様の部分行列のn * pを構築するための生データからランダムに選択されたP代表、ランドマークベースのスペクトルクラスタリング(LSC)クラスタ中心がPを与えるように、データセットのメソッドは、k平均を行う:2部分行列は、に基づいて構築されていますp個の代表者。しかし、これらは、大規模なデータ処理に重大な障害が設定されているボトルネック(N *のP)の複雑さを制限することに基づいて、スペクトルクラスタリング法で通常のサブ行列であり、データが大規模に焦点を当て、より良好な近似を得るために、通常の順序で大きいpの必要性。また、これらの方法のクラスタリング結果は、一つのアプローチ(実際のn * N行列の近似値)ロバストクラスタリング不安定性をもたらしサブ行列、に大きく依存しています。

本論文では、2つの新しい大規模アルゴリズム、超スケーラブルなスペクトルクラスタリング(U-SPEC)と超スケーラブルな統合クラスタリング(U-SENC)を提案しています。U-SPECは、新しいハイブリッド選択戦略の代表を提案では、効率的な選択を減らすからk平均に基づいて、Pの代表的なセットを見つけるまでの時間複雑。次いで、近づいK-最も近い、有効確立有する設計する方法時間とスパースメモリサブマトリックス。二部グラフの構成を表すデータセットとの間に設定スパースクロスアフィニティマトリックスとして部分行列。2つの構成図転送カットによる過度の計算行列分解の問題は、最終的には、K-means法を使用して、時間のかかるプロセスを離散的クラスタリング結果のk個の固有ベクトルを構築します統合:さらに、ロバストよりよいクラスタリングを提供し、U-SPEC-時間近似を越えて行くために、U-SENCが提案されたアルゴリズムは、単一の統合されたクラスタリング・フレームワークに統合U-SPECクラスタリング複数のフレームの時間と空間の複雑さは、主に構成されかつ制御されます。

すなわち:

p個の代表者を見つける:選択した戦略を表す新しいハイブリッド

K-最寄り近づい方法であって、サブNPスパース行列の確立

二部グラフの転送カット:NPの部分行列は、二部グラフとその効果的なセグメンテーション、最終的なクラスタリング結果として、解釈されます

 

3.PROPOSED FRAMEWORK

3.1は、新しいハイブリッド選択戦略を表しています。

FIG1:ランダム代表点として選択赤い点図は、パネルBは代表点k_means重心から選択され、Cは、図における混合方法の結果です。

表現しながら計算効率ランダム選択が、固有のランダム性は低い品質を表すグループを引き起こす可能性があり、そしてk_means、処理、方法を混合して開始することであり、合計データセットは、ランダムデータの一部を選択し、と、抽出した部分データ科学は、代表として、Pの重心をk_means図2。

K-最も近い代表3.2近似

Pデリゲートを取得した後、次の目標は、全データがpで二十から二関係担当者に設定符号化することです、

従来のサブマトリクス表現の方法、オブジェクトとサブ行列間Npが必要O(NPD)時間とO(NP)メモリのように表し、その後に提示K-最寄りNPスパース類似度行列(各オブジェクトは、接続された最寄りのkの唯一の代表である)、しかし、Pの代表間の距離に、すべてのN個のオブジェクトを計算することが必要です。合計数Np項計算に加えて、薄化ステップをさらに消費O(NPK)時間;(Psが:;構造的な問題で部分行列K-最も近い共通の特徴を持っているが、実用に異なる問題に直面している従来のKNN注と伝統的なKNNない構造が不均衡のp Nよりもはるかに小さいので、該当)

 

効率のボトルネックを打破するために、ここで重要な問題は、代表的なK-最も近いが大幅に我々は細かい機構K-最も近いが表す近似法に粗いに基づく方法を提案し、これらの中間用語の計算を削減するためのサブ行列を構築する方法でありますサブスパースアフィニティーマトリックスを確立するために、このメソッドを使用して

:私たちのK -主要なアイデアの近似領域の最近傍代表者は、次に、最近傍に(最近クラスタ選出距離Pクラスタ中心をP代表点のクラスタリング、サンプルと計算)、最近傍を見つけることです(面積として定義最も近い代表見つける)(最近代表クラスタ内の計算に最も近い点)、そして最後に近傍Kを見つけるために-最近傍の代表を(最近選択された点として点k値の近傍)。

 

3.3二部グラフ分割

:j番目を表します

:I番目のサンプル

これは継続の一部です。

おすすめ

転載: www.cnblogs.com/Isotropic/p/11506284.html