コンテキストのスイカ帳機械学習クラスタリングアルゴリズムのソート

クラスタリングタスクとは何ですか

「教師なし学習」最も研究され、最も広く使用されている学習課題は、ほかに、推定密度(密度推定)と異常検知(異常検出)があります。教師なし学習では、訓練サンプルタグ情報が不明で、ゴールは、マークされていない学習トレーニングサンプルのデータとルールの本質的な性質を明らかにし、さらにデータ分析のための基礎を提供することです。

クラスタリングいくつかの互いに素な部分集合に分割されたデータセット内の(クラスタリング)サンプルは、典型的には、各サブセットは、各クラスタは、潜在的な概念(クラス)に対応することができる、「クラスタ」(クラスタ)と呼ばれます。クラスタリングアルゴリズムのこれらの概念は、唯一の自動クラスタリング処理クラスタ構造が形成され、予め知られていないが、ユーザが必要と対応するクラスタは、セマンティクスと命名の概念を把握します。

 

クラスタリングを何を、どのように?

         データの内部構造の分布を求めるために、別個のプロセスとしての両方をクラスタリング、前駆プロセスはまた、他の学習タスクとして分類され得る:クラスタリングの結果によれば、各クラスタは、クラスとして定義され、これらのクラス分類モデルの前にトレーニングに基づきます。

 

クラスタリングの品質を決定するには?

これは、パフォーマンスメトリックの種類ですか?

試料からの良好な結果は、互いに近くに同じクラスタができるだけ異なる同様の、別のクラスタのサンプルであってもよい満たします。すなわち、クラスタリング結果「クラスタ類似性」(クラスタ内の類似性)と高い「クラスタ間の類似度」(クラスタ間の類似性)が低いです。

        クラスタパフォーマンスメトリック、また、クラスタリング、「有効性指標」として知られている(有効性指数)。一般的に、二つのカテゴリーがある:「参照モデル」(基準モデル)とクラスタリング結果が比較され、「外部の指標」(外部インデックス)は、他の任意の基準を使用せずに直接検査クラスタリングでありますモデル、「内部指標」として知られている(内部インデックス)。

一般的な外部指標

    ジャカード係数(ジャカード係数呼ぶJC)

    FM指数(FowlkesとMallowsの指数は、FMIをいいます。)

    ランドインデックス(RIと呼ばランドインデックス、)

一般的に使用される内部指標

    DB指数(デイビス - Bouldin指数、DBIと呼ばれます)

    ダン指数(ダンインデックス、略しDI)

使用内部メトリックをメトリッククラスタリング結果は、サンプル間の距離の尺度を使用する必要がある場合。

一般的な距離メトリック:

    ミンコフスキー距離(ミンコフスキー距離):連続属性の(序属性)(連続属性)と注文した財産

    VDM距離(値の差メトリック):無秩序属性(非順序)のために

    注意:プロパティは、プロパティは個別の注文と順不同の属性プロパティに分割して、離散と連続の属性プロパティに分かれています。

 

分類クラスタリングアルゴリズム

プロトタイプクラスタリング、密度及び距離階層的クラスタリング:クラスタリングアルゴリズムは大きく3つのカテゴリーに分けることができます。基本的な考え方は以下のとおりです。

プロトタイプクラスタリング

また、(プロトタイプベースのクラスタリング)、「プロトタイプベースのクラスタリング」として知られ、そのようなクラスタリングアルゴリズムは、実際にクラスタリングタスクは非常に一般的であり、プロトタイプの特性のセットを介してその構造をとります。通常の状況下では、アルゴリズムは最初のプロトタイプ、プロトタイプを初期化し、反復更新解決しました。異なるプロトタイプを表し、異なる解決方法は、異なるアルゴリズムを生成することになります。一般的なプロトタイプクラスタリングアルゴリズムK平均アルゴリズム、学習ベクトル量子化(学習ベクトル量子化、LVQ)と混合ガウスクラスタリング(ガウシアンの混合物)。

 

密度クラスタリング

また、「密度ベースのクラスタリング」(密度ベースのクラスタリング)が決定される公知のクラスタリングアルゴリズムは、このような構造は、サンプル分布の気密ができると仮定しています。通常の状況下では、クラスタリング密度サンプル密度及び角度は、最終的なクラスタリング結果を導出するためにサンプルと連続サンプルに基づいて拡大クレード間の連続性を調べることができます。共通密度クラスタリングアルゴリズムDBSCAN(ノイズアプリケーションの密度ベースの空間クラスタリング)

 

階層的クラスタリング

层次聚类(hierarchical clustering)试图在不同层次对数据集进行划分,从而形成树形的聚类结构。数据集的划分可采用“自底向上”的聚合策略,也可采用“自顶向下”的分拆策略。

AGNES(Agglomerative NESting)是一种采用自底向上聚合策略的层次聚类算法。它将数据集中的每个样本看作是一个初始聚类簇,然后在算法运行的每一步中找出距离最近的两个聚类簇进行合并,该过程不断重复,直至达到预设的聚类簇个数。

 

参考资料

[1] 周志华. 机器学习. 北京:清华大学出版社. 2016.197~217

おすすめ

転載: www.cnblogs.com/klchang/p/11482157.html