K 平均クラスタリング (K 平均) アルゴリズム

       グループ分析としても知られるクラスター分析は、分類問題 (サンプルまたは指標) を研究するための統計分析手法であり、データ マイニングの重要なアルゴリズムでもあります。それは教師なし学習法に属します。

        K-Means アルゴリズムはクラスタリングの基本アルゴリズムであり、教師なし学習における重要な手法です。

        基本的なアルゴリズムの考え方は次のとおりです。

        1) ランダムに k 個の初期点をクラスター重心として与えます。

        2) 各データサンプルと各クラスターの重心の間の距離を特定の距離関数によって計算し、それを最も近いクラスターに割り当てます。

        3)新しく割り当てられたクラスタに従って、k個のクラスタの新しい重心を計算する。

        4) 反復計算ステップ 2) 4) 反復の終了条件に達し (たとえば、2 つの反復クラスターの重心距離の変化が一定のしきい値未満になる)、データ分類が完了するまで。

        通常の K-Means アルゴリズムは、初期クラスター重心のランダム性により、局所的な最適値に収束する可能性があります。現時点では、複数のランダムな初期化を使用して、最良の分類結果を得ることができます。

        ただし、k の値が大きい場合、複数のランダム化によって得られる最良の結果は、わずかに改善されるだけである可能性があります。これは、k の数が増加するにつれて、各初期クラスターの重心位置のランダム性が全体にもたらす不確実性が小さくなるためです。

        データ ポイントからクラスター重心までの距離測定には、ユークリッド距離とコサイン距離がよく使用されます。

         コサイン距離図は次のとおりです。

        2 つのベクトルのコサイン = 2 つのベクトルの内積 / 2 つのベクトルの係数の積

 

 

おすすめ

転載: blog.csdn.net/weixin_43284996/article/details/127349451