アンドリュー・ウの機械学習(XIII) - K平均クラスタリングアルゴリズム

まず、クラスタリングの考え方

自動的に以下のように、同様の特徴を持つデータの同一のタイプことを保証することである教師なし学習法に属するメソッドカテゴリなしラベルのスタックにデータを分割する、いわゆるクラスタリングアルゴリズムを指します。
ここに画像を挿入説明

試料又は類似性(近抵抗)、差分サンプルを一つのグループ(クラスタ)にクラスタ化され、最終的に複数のクラスタを形成し、より小さく、より類似し、高い類似性クラスターを有する試料の内部、異なる距離クラスタ高いとの違い。

二、k平均クラスタリングアルゴリズム

関連概念:

得られるクラスタの数:K値

重心:各クラスタの平均ベクトル、すなわち、ベクトルは、各次元について平均することができます

距離測定:ユークリッド距離および使用コサイン類似度(第一の規格)
ここに画像を挿入説明

アルゴリズムのプロセス:

図1は、kの最初の値を決定する、すなわち、我々は、k個のクラスタのセットを介してデータセットを取得します。

図2に示すように、重心データからk個のデータ点としてランダムに選択されました。

図3に示すように、各点のデータセット、属する重心の組に分割する、重心近く、そこから、各重心(例えば、ユークリッド距離)までの距離を算出します。

図4に示すように、データの正規化、k個のセットの合計のすべての良い収集後。そして、各セットの重心を再計算します。

距離がより少ない新しい計算重心と設定された閾値の元の重心との間のいくつかよりもあれば5、我々はクラスタに達していると仮定することができる(意味しない位置は、重心の変化を安定化させる、または収束再計算しました)望ましい結果、アルゴリズムは終了します。

図6は、オリジナルと新しい重心重心距離の変化が大きく、3-5反復ステップを必要とする場合。

第三に、数学的原理は
ここに画像を挿入説明
ヒューリスティックK-手段は、以下の画像に説明するグラフのセットで、非常にシンプルな使用:
ここに画像を挿入説明
図は、初期データの集合を表現することが想定K = 2です。図Bにおいて、我々は、ランダムに、すなわち、図の赤重心及び青色重心、クラス重心に対応する二つのクラスkを選択し、それぞれ、この場合、2つの重心にすべての点を距離を求め、各サンプルをマーク図Cに示すように、試料と最小重心距離カテゴリのカテゴリ、及びサンプルは、赤と青重心重心から計算された後、我々はすべてのサンプル点のカテゴリの最初の反復の後に得ました。この時点で、私たちはその新しい重心が図Dに示されている私たちの現在のマークの赤と青の点を見つけ、新しい赤と青の重心の変化の重心位置が発生しました。我々はプロセスを繰り返すと、d cを図において、図のEおよびF、重心及び新規性の重心最寄カテゴリーカテゴリー標識、すなわちすべての点。最後に、我々は、Fに示されている二つのカテゴリを取得します。

第四に、例

座標系は、6つのポイントがあります。
ここに画像を挿入説明

P1及びP2:Kは2に等しく、我々はランダムに2点を選択したので、図1に示すように、我々は、2つのグループに分け

図2に示すように、残りの点は、このから2点ピタゴラスの定理により計算されます。
ここに画像を挿入説明

図3に示すように、第一のグループ化結果の後:

    组A:P1

    组B:P2、P3、P4、P5、P6

4、A群とB群の重心を計算します。

    A组质心还是P1=(0,0)

    B组新的质心坐标为:P哥=((1+3+8+9+10)/5,(2+1+8+10+7)/5)=(6.2,5.6)

図5に示すように、各点は重心間隔に再び計算されます。
ここに画像を挿入説明

図6に示すように、第二のグループ化の結果:

    组A:P1、P2、P3

    组B:P4、P5、P6

7、重心が再び計算されます。

    P哥1=(1.33,1) 

    P哥2=(9,8.33)

図8に示すように、再び重心までの距離の各点について計算します:
ここに画像を挿入説明

図9に示すように、第三のグループ化の結果:

    组A:P1、P2、P3

    组B:P4、P5、P6

見つけることができ、第三の群の結果と第2グループの結果、一貫した説明は、エンドクラスタリングを収束しました。

五、K-means法の長所と短所

利点:

原理は簡単です1、、高速コンバージェンスを達成することは非常に簡単です。

結果は密なクラスタ、およびクラスタと明らかにクラスタ間の差であるとき2は、それが良いでしょう。

図3は、主なパラメータは、クラスタkのわずか数のパラメータを調整する必要があります。

短所:

図1は、多くの場合、Kの推定値を与えられ、予め必要なK値は非常に困難です。

2、初期重心感受性、異なるクラスタリング結果は、ランダムシードポイントを取得選択するK平均アルゴリズムは、結果に大きな影響は全く異なります。

図3に示すように、ノイズ及び異常値に対してより敏感。外れ値を検出します。

4、反復法は、部分的にしか最適なソリューションを取得することがありますが、全体的な最適解を得ることができません。

第六は、細部
1は、K値がどのように与えられましたか?

A:個人的な経験や感情に応じて、いくつかのカテゴリ、通常の練習は、結果のより良い解釈を見てより多くの分析の目的に沿ったものとそうでいくつかのカテゴリに分けられ、いくつかのK値を、試してみることです。様々なK値またはEを比較するために計算されてもよい、Kは、Eの最小値をとります

教師は肘法内部映像、機能に引き込ま取得するために、各機能のコストは、カーブが緩やかになったときに、Kの数が一定であることができるアンドリュー・ウを参照することができます
ここに画像を挿入説明

2、最初のKは、どのように選挙を重心?

:アルゴリズムは結果を使用なる、それを数回、より合理的な結果を実行する必要がありますので、最も一般的な方法は、ランダムに選択し、最終的クラスタリングの質量の初期中心の選定結果に影響を与えています。もちろん、いくつかの最適化の方法があるから、第とき第遠い点から選択される第1の点と第2の点を選択するために、具体的には、最も離れ互いから点を選択し、第三のを選択することです点、第一、第二及び二点間の最小距離などの第三の点。第二は、(例えば、階層的クラスタリングのような)他のクラスタリングアルゴリズム、ポイントを選択するために、各カテゴリからの結果に基づいて、クラスタリング結果を得ることです。

3、外れ値に?

:外れ値は、「」「偉大な」非常に小さくする必要がありますはるかにこれらの外れ値のクラスタ化する前に、全体、非常に珍しい、非常に特定のデータポイントからであり、削除されているように、それ以外の結果はクラスタリング影響を受けました。しかし、非常に多くの場合、自分自身の分析の値の外れ値、外れ値はクラスとして別々に分析することができます。

4、一貫性をユニット!

A:例えば、単位はm個のXであり、Yはメートルで、ユニットまたはイネで算出された距離は、それは理にかなっています。Xはmがある場合でも、Y tは、正方形を開くには、「四角のトン」と「平方メートル」になり、距離の式を用いて計算され、最後の事は問題である数学的な意味を、計算されません。

5、標準化

Aは:全体としてのデータXは、番号が1と10の間であるような、比較的小さい場合、Yは、数が距離Yを計算する際に、その後、1000以上であるような、大きい場合、大きなXよりも役割多くの、衝撃のXの距離が、それはまた、問題はほとんど無視できる程度です。K平均クラスタリングから選択されたユークリッド距離計算場合、データセットは、上記の場合に登場しているこのように、それが落ちるように約データをスケーリング、正規化されたデータ(正規化)でなければなりません小さな特定のセクション。
参考K平均クラスタリングアルゴリズム
アンドリュー・ウ機械学習コース[英語の字幕]

公開された80元の記事 ウォンの賞賛140 ビュー640 000 +

おすすめ

転載: blog.csdn.net/linjpg/article/details/104265085