アンドリュー・ウ「機械学習」コースの概要(13)_クラスタリング

13.1教師なし学習:はじめに

別のタグセット(クラスター)へのいかなるサンプルは、このアルゴリズムは、クラスタリングと呼ばれていません。公共エリアでは、市場細分化、ソーシャルネットワーク分析、コンピュータクラスタ管理を持つ銀河を理解しています。

13.2K-は、アルゴリズムを意味し、

(1)Kが - 、クラスタリングアルゴリズムは、最も人気のあるが、反復アルゴリズムである、n個のグループにクラスタリングデータを必要とすると仮定されている第一ランダムに選択された時点を意味Kは、クラスタの中心と呼ばれます。

各試料は、次に、新しいクラスタの中心に、各クラスタの中心を再計算する不変のクラスタ中心まで上記手順を繰り返し、最も近いクラスタ中心に起因します。

擬似コードは次のよう:

13.3最適化の目標

K-は、各サンプル点は、クラスタ中心からの距離に対応することを最小化問題があることを意味します。

違いは、他のアルゴリズムで、すべてのK-が反復は、コスト関数が小さくなることを意味していることです。

13.4ランダムな初期化

(1)K mはサンプルの数未満でなければなりません。

(2)Kとしては、例えば、ランダムサンプルから初期クラスタセンターとして選択します。

次のようにK-手段は、極小のケースを発生することがあります。

溶液:アルゴリズムを複数回実行し、最小のコスト関数比較K-手段結果最後に、この方法は、短い時間(2-10)、Kはるかに明らかな効果方Kに適しています。

13.5クラスタの数を選択します

図は、クラスタの数でプロットは傾きの関数値をコストになる小さい突然(「肘ルール」)を置いて起こる選択します。

 

 

おすすめ

転載: www.cnblogs.com/henuliulei/p/11286955.html