K平均法MacQueen1967年提出的。データ・セットXと整数K(n)を与えられ、K平均法は、XとKクラスタに分割されているように、各クラスタのクラスタの中心からの距離が最小のすべての値の合計。
K平均クラスタリング方法は、以下のステップに分けられます。
[1] K初期クラスタ中心点を選択するためには、K手段と称される。
[2]それぞれと各オブジェクトの中心点間の距離を算出します。
最も近いクラスタ中心点から各オブジェクトへの[3]を代入属を行います。
[4]は、各クラスタの中心点を再計算します。
[5]を繰り返して、アルゴリズムが収束するまで、2、3ステップ。
以下のいくつかの写真は、動的にこれらのステップを示しています。
ここでは、K-手段アルゴリズムを実装説明するために、具体的な例を取ります。
K-手段は、長所と短所をアルゴリズム:
利点:
(1)高効率、スケーラビリティを持つ大量のデータを処理します。アルゴリズムの複雑さはO(TKN)であり、ここでnはオブジェクトの数であり、kはクラスタの数であり、Tはサイクル数、典型的にはT << N、Kです。
(2)グローバル最適化アルゴリズムを探しているが、アニールまたは遺伝的アルゴリズムを用いてもよい場合、ローカル最適化は、達成することができます
短所:
番号は(1)クラスタは、事前に決定されなければならない、いくつかのアプリケーションでは、事前にクラスタの番号を知りません。
(2)Kの中心点は、事前に予約する必要があり、いくつかの文字属性には、中心点を決定することは困難です。
(3)は、ノイズの多いデータを処理することはできません。
(4)いくつかのデータ分布を扱うことができない(例えば、凹)
K-means法変異
(1)K-モード:属性分類処理
(2)K-プロトタイプ:数値分類と加工性
(3)K-Medoids
それらの間の主な違いは、K-means法です。
異なる選択肢(1)Kの中心点のオリジナル。
異なる計算(2)距離。
異なる(3)クラスター政策の中心を計算します。