データマイニング - クラスタモデルをマイニング

 

 

クラスター(クラスター分析)

定義:データは、同様のクラスに分割され、特徴データとの類似度に基づいてデータを識別する。

役割:データの分布解析のためのスタンドアロンツールとして

   他のアルゴリズムは、前処理工程の(例えば、分類)として使用することができます

   パターン認識

   空間データ分析

   画像処理

   経済学(特に市場調査)

要件のいくつかのモデルをクラスタリング:

 

 

 

メインクラスタリングアルゴリズム

図1に示すように、分割に基づく方法

データベース、オブジェクトのn個のタプルまたはデータの構築Kパーティションを分割する方法を与え、各部門は、一つのクラスタを表し、K <= N。すなわち、それはk個のデータ群に分割されている以下の要件満たす:(1)少なくとも1つのオブジェクトを含む各;(2)、及び各オブジェクトが1つのグループにのみ属するように属していなければなりません。

典型的なアルゴリズム:K-手段

階層的クラスタリング方法に基づいて2、

主なアイデアは、部分的にクラスタを構成する関連し、必要なレベルでそれらを切断し、クラスタデータオブジェクトがツリーに配置されているためです。階層的クラスタリングの(1)の重合:に基づく階層型クラスタリングの2種類があります。各オブジェクトは、それらの間の類似性は、その後、最初のクラスタであり、これらの原子は、マージをクラスタリングします。このカテゴリにほとんどの階層的アプローチの秋は、彼らの主な違いは、クラスタ間の類似性の定義です。上記工程(2)階層的クラスタリング除算それが逆になります。

典型的なアルゴリズム:BIRCH

3、密度に基づく方法

大半は、オブジェクト間の距離に基づいてメソッドを分割クラスタ化されます。このような方法は、凸状のクラスター、及び困難に遭遇した任意形状クラスタの発見に見出すことができます。密度ベースのクラスタリング手法の主なアイデアは:周辺密度(オブジェクトまたはデータ点の数)が一定の閾値を超えている限り、クラスタが続きます。すなわち、所定の範囲の領域で指定されたクラスのための各データ点は、点の少なくとも特定数を含んでいなければなりません。そのような方法は、任意の形状のクラスタを見つけ、データ「ノイズ」フィルタを使用することができます。

典型的なアルゴリズム:DBSCAN     OPTICS

図4に示すように、グリッドベースの方法

把多维数据空间划分成一定数目的单元,然后在这种数据结构上进行聚类操作。 该类方法的特点是它的处理速度,因为其速度与数据对象的个数无关,而只依赖于数据空间中每个维上单元的个数。

5、基于模型的方法

(1)神经网络方法 (2)统计的方法

 

 

おすすめ

転載: www.cnblogs.com/hupc/p/11972104.html