K最近傍アルゴリズムが直面する次元災害問題

  • K最近傍アルゴリズムの基本的な考え方

K最近傍アルゴリズムは、一般的に使用される教師あり学習方法であり、その原理は非常に単純です。

テストサンプルが与えられた場合、特定の距離に基づいてトレーニングセット内でそれに最も近いKトレーニングサンプルを見つけ、K近傍の情報に基づいて予測を行います。

2つの基本的な要素:1特定の距離の概念2互いに近い点が類似した特性を持つという仮定

  • k最近傍アルゴリズムが直面する次元災害問題

ただし、特徴の次元が増加するにつれて、K最近傍アルゴリズムの効果は低下し続けます。これは、高次元空間が大きすぎ、高次元空間の点が互いに接近していないように見えるためです。

次元の災害を観察する1つの方法は、高次元空間でポイントのペアをランダムに生成し、それらの間の距離を計算することです。

 

1から100までの各次元について、10,000個のランダムポイントペアの距離を計算し、平均値と最小値を計算します。結果を図1に示します。

次元が増加するにつれて、空間内のポイントペアの平均距離と最小距離が徐々に増加していることがわかります。

しかしさらに悪いのは、図2に示すように、最小距離と平均距離の比率が徐々に増加していることです。

  • この問題を解決するには?

したがって、高次元空間でK最近傍アルゴリズムを使用する場合は、最初にいくつかの次元削減を行うことができます。

リリース9件のオリジナルの記事 ウォンの賞賛1 ビュー6066

おすすめ

転載: blog.csdn.net/wcysghww/article/details/82589975