K平均クラスタリング

監督ラベル、唯一のx特性値がなければ、Y、予測する方法はありません、あなたが行うことを証明する権利または間違った方法はありません、そのようなデータセットは、それは私たちが行うことができますか?教師なし機械学習です。クラスタリングアルゴリズムは、共通または次元削減です。クラスタリングとは何ですか?データマイニングは、例えば、ユーザーがグループ化することができる、サンプルデータセットを分割する方法を別のマーケティング戦略を探る私たちを助け、同様のデータ分類によって集中管理ルールの存在です。クラスタリングはまた、非常に多くのアルゴリズムに含まれています。

 

クラスタリングの基本的な考え方は次のとおりです。同様に、グループの人々、のように魅了しています。サンプル間の類似度を算出することを特徴とします。

 

K平均クラスタリング:

ステップ1:ハイパーパラメータkを決定し、kはいくつかのカテゴリのサンプルを収集するために起こっています。

ステップ2:すべてのサンプルでは、​​3つのポイントをランダムに選択、初期クラスタ中心として。

第三段階:各点と、3つの中心点の三個の中心点が順次算出される以外の距離のために。そして、最も近いサンプル点から中心点を見つけます。

第四HO:すべてのポイントが最も近いクラスタの中心点に分割されますがgoを表します。

ステップ5:すべてのサンプルがk個のクラスに分割され、データとKヒープは、k個のクラスタの重心を計算します。例えば:

ステップ6:再び3-5 HOを繰り返して、新しいクラスタ中心kを生成し、この新たな焦点にK。

第HO:終了条件(A):クラスタリング処理が繰り返されて、すべてのサンプル点の分類結果が変更されていない、(b)または設定した反復の最大数、例えばmax_iter = 200。

 

原則 - アルゴリズム:

 https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html#sklearn.cluster.KMeans 
 
 関数kmeans(
    n_clustersの= 8、#1 INT、任意クラスタ数が
    「++ k平均」=を初期化 #、 代替の初期重心法
    k平均アルゴリズムを実行し、異なる重心種子の数を使用して、n_init = 10位。慣性で、最終結果は、最高出力n_init連続運転となります。
    = 300 max_iter、反復の#最大数、これは繰り返しの数超えることは続行されません場合
    、反復を停止するときのどのようなサイズまでTOL = 0.0001、#のMSE値を
    precompute_distancesの=「自動」に、
    冗長= 0、
    random_state =なし、乱数シード#1
    copy_x =真、
    n_jobs =なし、CPUコア#1の使用
    アルゴリズム= '自動'、

モデル評価

こちらのモデルは、関数kmeansアルゴリズムの評価を結果何、評価モデルアルゴリズムは、次のような特徴を測定するために実装されています

図1に示すように、クラスタの中心に最も近いサンプルの和(慣性)


#の慣性:それは、オブジェクトモデルのプロパティで最も近いクラスタ中心からのサンプルの合計を表し、それは本当の分類および標識の非存在下での教師なし評価指標であるように、値がプルーフの値より良く、小さい小さいKは、手段サンプルクラス、クラス内の距離、すなわち、小さい間のより濃縮された分布。

 図2に示すように、プロファイル因子


#輪郭係数:これは、距離を算出する距離における最近のクラスタの平均値と各サンプルの平均集団を用いて、すべてのサンプルの平均係数分布を計算するために使用され、それは非教師の評価指標です。1の最大値は、最悪値は-1に近い値、0で表され、クラスタをオーバーラップする、典型的には負の値は間違ったクラスタに割り当てられたサンプルを示します。

 

 https://scikit-learn.org/stable/modules/generated/sklearn.metrics.silhouette_score.html#sklearn.metrics.silhouette_score 
 
実際には、プロファイル・ファクタで最高のk値、パラメータ調整して下さい。一般的に用いられる方法である:2プロファイル因子。
 

3、CHインジケータ

 

クラスタ中心分離することにより、各クラスCH指標算出点、解像度のデータセットを測定するために、データセットのすべてのタイプと中央広場との間の距離の中心点を計算することにより、カテゴリの二乗と気密距離によって測定CHインジケータ気密性の比が得られます。したがって、CHは、より大きな、より密接クラス自体、クラス間分散、すなわち、よりよいクラスタリング結果を表します。 
 
 

おすすめ

転載: www.cnblogs.com/BC10/p/11791334.html